1Что такое токен
Языковая модель не видит текст так, как мы, — буквами и словами. Перед обработкой текст разбивается на токены: короткие фрагменты, чаще всего части слов. Одно слово может быть одним токеном, а может — двумя-тремя. Знаки препинания, пробелы, числа и эмодзи тоже превращаются в токены.
Важная деталь для русскоязычного бизнеса: русский текст «весит» в токенах больше английского. Кириллица кодируется дробнее, поэтому одно русское слово часто занимает 2–3 токена, тогда как в английском один токен — это в среднем около ¾ слова. Это напрямую влияет на стоимость.
2Почему за токены платят
Биллинг языковых моделей считается именно в токенах, причём отдельно за вход и за выход. Входные токены — это всё, что вы отправили модели: системный промпт, история диалога и переданный контекст. Выходные — это сгенерированный ответ, и нередко он тарифицируется дороже входного.
Отсюда ключевой эффект: в диалоге история накапливается, и модели её передают заново при каждом сообщении. Чем длиннее разговор, тем больше токенов уходит на контекст в каждом новом запросе — поэтому длинные диалоги дорожают сами по себе, даже если реплики короткие.
3Что раздувает счёт
Расход растёт незаметно, и почти всегда из-за одних и тех же причин:
- Длинный системный промпт, который отправляется в каждом запросе.
- Вся история диалога, которая тащится целиком без обрезки.
- Большие куски базы знаний, поданные «на всякий случай» вместо релевантных фрагментов.
- Многословные развёрнутые ответы там, где хватило бы короткого.
- Повторные обращения из-за нечётких формулировок — модель переспрашивает или ошибается.
4Как экономить на токенах
Первое — убрать лишнее из входа: сократить системный промпт до сути и не тащить всю историю, а обрезать или суммаризировать старые реплики. Второе — подавать в контекст только релевантные фрагменты базы знаний через RAG, а не весь каталог целиком.
Третье — ограничивать длину ответа (параметр максимума токенов) и направлять простые массовые запросы на более дешёвую модель, оставляя мощную для сложного, — это логика тарифных тиров. Частые одинаковые ответы можно кэшировать. И помните про язык: лаконичность в русском экономит напрямую. Такие настройки заметно снижают счёт, обычно без потери качества.
