1Что такое контекстное окно
Контекстное окно — это максимальный объём текста, который модель обрабатывает за один запрос. Измеряется он в токенах (фрагментах слов), и в это окно должно поместиться всё сразу: системный промпт, история диалога, переданные документы и сам ответ модели.
У разных моделей окна разного размера, но принцип общий: это жёсткий лимит на «рабочую память» одного обращения. Как только суммарный объём подходит к границе, что-то приходится выбрасывать — и обычно это самые старые части диалога.
2Почему модель «забывает»
Важный момент: модель не хранит разговор между запросами. Всё, что она «знает» о диалоге прямо сейчас, — это то, что уместилось в контекстное окно текущего обращения. Историю ей передают заново каждый раз.
Поэтому, когда диалог перерастает окно, старые реплики обрезают — и бот теряет начало: забывает имя клиента, ранее озвученные условия или договорённости. Есть и более тонкий эффект «потерянной середины»: даже если текст влез, информацию в середине очень длинного контекста модель использует хуже, чем в начале и конце.
3Чем это грозит бизнесу
На практике это выглядит как бот, который «сбрасывает» контекст в длинном диалоге с клиентом и начинает переспрашивать уже сказанное. А большую базу знаний нельзя просто «впихнуть целиком» в каждый запрос — она не поместится в окно.
При этом большое окно — не бесплатное решение. Чем больше текста подаётся, тем дороже запрос (платят за токены) и тем медленнее ответ. Плюс риск той самой потерянной середины. Поэтому гонка за размером окна сама по себе проблему не снимает.
4Как с этим работают
Главный приём — не подавать всё подряд, а подавать только нужное. Вместо всей базы знаний через RAG в контекст кладут лишь фрагменты, релевантные конкретному вопросу. Историю диалога сжимают — старые реплики заменяют кратким резюме (суммаризация) или обрезают по важности.
Дополнительно держат компактным системный промпт и следят за общим объёмом контекста. Итог простой: грамотная работа с контекстным окном — что и как в него класть — на практике важнее, чем сам по себе размер окна модели.
