ИИ и нейросети

Что такое токены в языковых моделях и как на них экономить

Любой запрос к нейросети и любой её ответ измеряются не в словах и не в символах, а в токенах — и именно за токены вы платите. Понимание того, что такое токен, помогает и считать расходы, и держать диалоги под контролем. Разбираем простыми словами, как устроена токенизация, почему длинные промпты дороже и какими приёмами реально сокращать счёт.

6 августа 2026 г.7 мин чтенияРедакция Юнкис

Коротко о главном

  • Токен — это фрагмент текста (часть слова), а не слово; модель и биллинг работают именно в токенах.
  • Платят и за вход (промпт + история + контекст), и за выход (ответ); в диалоге история копится и удорожает каждый следующий запрос.
  • Русский текст «весит» в токенах больше английского, поэтому лаконичность экономит напрямую.
  • Экономят короткими промптами, обрезкой истории, RAG вместо целого каталога, лимитом длины ответа и дешёвой моделью на простых задачах.

1Что такое токен

Языковая модель не видит текст так, как мы, — буквами и словами. Перед обработкой текст разбивается на токены: короткие фрагменты, чаще всего части слов. Одно слово может быть одним токеном, а может — двумя-тремя. Знаки препинания, пробелы, числа и эмодзи тоже превращаются в токены.

Важная деталь для русскоязычного бизнеса: русский текст «весит» в токенах больше английского. Кириллица кодируется дробнее, поэтому одно русское слово часто занимает 2–3 токена, тогда как в английском один токен — это в среднем около ¾ слова. Это напрямую влияет на стоимость.

2Почему за токены платят

Биллинг языковых моделей считается именно в токенах, причём отдельно за вход и за выход. Входные токены — это всё, что вы отправили модели: системный промпт, история диалога и переданный контекст. Выходные — это сгенерированный ответ, и нередко он тарифицируется дороже входного.

Отсюда ключевой эффект: в диалоге история накапливается, и модели её передают заново при каждом сообщении. Чем длиннее разговор, тем больше токенов уходит на контекст в каждом новом запросе — поэтому длинные диалоги дорожают сами по себе, даже если реплики короткие.

3Что раздувает счёт

Расход растёт незаметно, и почти всегда из-за одних и тех же причин:

  • Длинный системный промпт, который отправляется в каждом запросе.
  • Вся история диалога, которая тащится целиком без обрезки.
  • Большие куски базы знаний, поданные «на всякий случай» вместо релевантных фрагментов.
  • Многословные развёрнутые ответы там, где хватило бы короткого.
  • Повторные обращения из-за нечётких формулировок — модель переспрашивает или ошибается.

4Как экономить на токенах

Первое — убрать лишнее из входа: сократить системный промпт до сути и не тащить всю историю, а обрезать или суммаризировать старые реплики. Второе — подавать в контекст только релевантные фрагменты базы знаний через RAG, а не весь каталог целиком.

Третье — ограничивать длину ответа (параметр максимума токенов) и направлять простые массовые запросы на более дешёвую модель, оставляя мощную для сложного, — это логика тарифных тиров. Частые одинаковые ответы можно кэшировать. И помните про язык: лаконичность в русском экономит напрямую. Такие настройки заметно снижают счёт, обычно без потери качества.

Частые вопросы

Сколько токенов в одном слове?+
Зависит от языка. В английском в среднем один токен ≈ ¾ слова, а в русском одно слово часто занимает 2–3 токена, потому что кириллица кодируется дробнее. Точное число даёт токенизатор конкретной модели.
Почему длинный диалог обходится дороже?+
Потому что модель не помнит разговор сама — историю передают ей заново в каждом запросе. Чем длиннее диалог, тем больше токенов уходит на контекст при каждом сообщении. Помогает обрезка или суммаризация старых реплик.
Как уменьшить расход токенов без потери качества?+
Сократить системный промпт до сути, подавать в контекст только релевантные фрагменты базы знаний через RAG, ограничивать длину ответа и направлять простые запросы на более дешёвую модель. Качество при этом обычно не страдает, а счёт падает.
что такое токены llmтокены нейросетистоимость llmоптимизация затратИИ для бизнеса

Хотите ИИ-агента для своего бизнеса?

Попробуйте Юнкис бесплатно — первые 90 сообщений в подарок.

Попробовать бесплатно
Bot Avatar
ИИ-ассистент Юнкис
💻 Записаться на Zoom-экскурсию?