1Что такое инференс простыми словами
У нейросети две фазы жизни. Обучение (training) — долгий и дорогой процесс, когда модель «учится» на огромных данных; он происходит один раз. Инференс (inference) — это уже использование готовой модели: вы даёте ввод, модель выдаёт ответ. Каждый запрос к боту — это отдельный инференс.
Языковая модель генерирует ответ не целиком, а по одному токену за раз, предсказывая следующий на основе предыдущих. Поэтому длинный ответ буквально «печатается» дольше короткого — модель делает больше шагов. Отсюда и эффект постепенно появляющегося текста, который вы видите в чате.
2Из чего складывается задержка
Воспринимаемая скорость складывается из нескольких составляющих, и их важно различать:
- Время до первого токена (TTFT) — пауза перед тем, как пойдёт ответ. Самое заметное для пользователя.
- Скорость генерации — сколько токенов в секунду модель выдаёт дальше; определяет, как быстро «допечатается» ответ.
- Размер модели — крупные и «умные» модели считают дольше, лёгкие отвечают быстрее.
- Длина контекста — чем больше текста надо учесть (история диалога, база знаний), тем дольше обработка.
- Сеть и очередь — задержка передачи и ожидание, если сервис перегружен запросами.
3Почему для голоса это критичнее, чем для чата
В текстовом чате задержка в пару секунд терпима: человек видит, что бот «печатает», и спокойно ждёт. В голосовом разговоре всё иначе — пауза в две секунды воспринимается как неловкое молчание или «связь пропала». Естественный диалог требует, чтобы агент начинал отвечать почти мгновенно.
Поэтому для голосовых агентов латентность — главный инженерный приоритет. В ход идут более быстрые модели, потоковая обработка (агент начинает говорить, не дожидаясь конца генерации) и совмещение этапов распознавания, мышления и синтеза речи. Иногда быстрая модель важнее самой умной: лучше живой ритм разговора, чем идеальный, но запоздалый ответ.
4Как влияют на скорость на практике
Скорость — это управляемый компромисс, а не данность. Снизить задержку помогает выбор модели под задачу (не брать самую тяжёлую там, где хватает лёгкой), сокращение лишнего контекста, потоковая выдача ответа и кэширование частых запросов. Маршрутизация тоже работает: простое отдавать быстрой модели, сложное — мощной.
Важно держать баланс: гонка за скоростью в ущерб качеству так же вредна, как медленный, но идеальный бот. Практичный ориентир — задержка, незаметная для пользователя в его канале: для чата это одни рамки, для голоса — заметно жёстче.
