Контекстное окно LLM: что это и почему ограничивает диалог

У любой языковой модели есть предел того, сколько текста она может «удерживать в голове» одновременно, — это и называют контекстным окном. Когда диалог или база знаний в него не помещаются, модель начинает «забывать» начало разговора. Объясняем, что такое контекстное окно, почему из-за него бот теряет нить и как с этим работают на практике.

7 августа 2026 г.7 мин чтенияРедакция Юнкис

Коротко о главном

Контекстное окно — максимум текста в токенах, который модель обрабатывает за один запрос: промпт, история, документы и ответ вместе.

Модель не помнит диалог между запросами; когда разговор перерастает окно, начало обрезается и бот «забывает» сказанное ранее.

Большое окно не панацея: оно дороже, медленнее, а в середине длинного контекста модель хуже находит нужное («потерянная середина»).

На практике помогают RAG (только релевантные фрагменты), суммаризация истории и компактный системный промпт — это важнее, чем гонка за размером окна.

1Что такое контекстное окно

Контекстное окно — это максимальный объём текста, который модель обрабатывает за один запрос. Измеряется он в токенах (фрагментах слов), и в это окно должно поместиться всё сразу: системный промпт, история диалога, переданные документы и сам ответ модели.

У разных моделей окна разного размера, но принцип общий: это жёсткий лимит на «рабочую память» одного обращения. Как только суммарный объём подходит к границе, что-то приходится выбрасывать — и обычно это самые старые части диалога.

2Почему модель «забывает»

Важный момент: модель не хранит разговор между запросами. Всё, что она «знает» о диалоге прямо сейчас, — это то, что уместилось в контекстное окно текущего обращения. Историю ей передают заново каждый раз.

Поэтому, когда диалог перерастает окно, старые реплики обрезают — и бот теряет начало: забывает имя клиента, ранее озвученные условия или договорённости. Есть и более тонкий эффект «потерянной середины»: даже если текст влез, информацию в середине очень длинного контекста модель использует хуже, чем в начале и конце.

3Чем это грозит бизнесу

На практике это выглядит как бот, который «сбрасывает» контекст в длинном диалоге с клиентом и начинает переспрашивать уже сказанное. А большую базу знаний нельзя просто «впихнуть целиком» в каждый запрос — она не поместится в окно.

При этом большое окно — не бесплатное решение. Чем больше текста подаётся, тем дороже запрос (платят за токены) и тем медленнее ответ. Плюс риск той самой потерянной середины. Поэтому гонка за размером окна сама по себе проблему не снимает.

4Как с этим работают

Главный приём — не подавать всё подряд, а подавать только нужное. Вместо всей базы знаний через RAG в контекст кладут лишь фрагменты, релевантные конкретному вопросу. Историю диалога сжимают — старые реплики заменяют кратким резюме (суммаризация) или обрезают по важности.

Дополнительно держат компактным системный промпт и следят за общим объёмом контекста. Итог простой: грамотная работа с контекстным окном — что и как в него класть — на практике важнее, чем сам по себе размер окна модели.

Частые вопросы

Что такое контекстное окно простыми словами?+

Это «оперативная память» модели на один запрос: сколько текста она может учитывать одновременно. В окно входит системная инструкция, история диалога, поданные документы и сам ответ — и всё это вместе ограничено числом токенов.

Почему бот забывает, что обсуждали в начале диалога?+

Модель не хранит разговор сама — историю передают ей в каждом запросе. Когда диалог перестаёт помещаться в контекстное окно, самые старые реплики отбрасывают, и для модели их как будто не было. Помогает суммаризация истории.

Решает ли проблему модель с очень большим окном?+

Частично. Большое окно позволяет подать больше текста, но повышает стоимость и задержку, а информацию в середине длинного контекста модель использует хуже. Часто эффективнее подавать через RAG только то, что относится к вопросу.

Контекстное окно LLM: что это и почему ограничивает диалог

Коротко о главном

1Что такое контекстное окно

2Почему модель «забывает»

3Чем это грозит бизнесу

4Как с этим работают

Частые вопросы

Читайте также

ИИ-ассистент против найма менеджера: честное сравнение затрат

Инференс нейросети: что это и от чего зависит скорость ответа

Как повысить конверсию чат-бота: 7 рабочих приёмов

Хотите ИИ-агента для своего бизнеса?