1«Обучить» — это чаще всего не дообучение
Под «обучить бота на своих данных» обычно понимают одно из двух. Первое — дообучение (fine-tuning): модель буквально переучивают на ваших примерах. Это дорого, требует экспертизы и плохо подходит для данных, которые часто меняются.
Второе и куда более практичное — подключение базы знаний через RAG (Retrieval-Augmented Generation). Здесь модель не переучивают: перед ответом система находит релевантные фрагменты в ваших документах и отвечает строго на их основе. Обновить знания — значит просто заменить документ, а не переобучать модель. Для большинства бизнес-задач выбор очевиден в пользу RAG.
2Что годится в качестве источника
База знаний хороша ровно настолько, насколько хороши её источники. В дело идут любые структурированные тексты о вашем бизнесе:
- Каталог и прайс: описания товаров и услуг, характеристики, актуальные цены.
- FAQ и регламенты: ответы на частые вопросы, условия доставки, оплаты, возврата.
- Скрипты и отработка возражений: как правильно отвечать на типовые сомнения клиентов.
- Документы и статьи: инструкции, гайды, описания процессов — всё, что менеджер держит «в голове».
3Пошаговый процесс
Подключение базы знаний укладывается в четыре шага — от подготовки данных до проверки качества ответов:
- Собрать и очистить. Соберите актуальные материалы, уберите устаревшее и противоречивое: бот не должен видеть две разные цены на один товар.
- Разбить на фрагменты. Длинные документы делят на небольшие смысловые куски (чанки) — так поиск находит точный ответ, а не весь файл целиком.
- Проиндексировать. Каждый фрагмент превращается в вектор и сохраняется в базе. Этот шаг платформа выполняет автоматически при загрузке данных.
- Проверить на реальных вопросах. Задайте боту вопросы, которые задают клиенты, и сверьте ответы с источниками. Где ответ неточен — дополните или переформулируйте базу.
4Как поддерживать качество и не плодить галлюцинации
Главное правило — актуальность. Изменилась цена или условие? Обновите документ и переиндексируйте: устаревшая база опаснее пустой, потому что бот уверенно сообщает неверное. RAG делает это дёшево — переобучать модель не нужно.
Чтобы бот не выдумывал, в его инструкции прямо прописывают: отвечать только на основе найденного контекста, а при отсутствии данных — честно сообщать об этом или предлагать связаться с человеком. Так база знаний работает не только как источник ответов, но и как защита от галлюцинаций.
