1Почему обычного поиска недостаточно
Классический поиск работает по ключевым словам: запрос «доставка» находит документы, где есть слово «доставка». Но клиент редко формулирует так же, как написано у вас. Он спросит «когда привезёте заказ», а в базе знаний это называется «сроки доставки» — одинаковых слов нет, а смысл один и тот же.
Из-за этого поиск по словам пропускает релевантные ответы и заставляет точно угадывать формулировки. Для ИИ-агента нужен другой принцип — поиск по смыслу, или семантический поиск, который понимает, что разные слова могут означать одно и то же.
2Что такое эмбеддинги (векторы)
Чтобы искать по смыслу, текст сначала переводят в числа. Специальная модель-эмбеддер превращает фрагмент текста в вектор — длинный список чисел, который кодирует его смысл. Это и есть эмбеддинг.
Главное свойство: близкие по смыслу тексты получают близкие векторы. Фразы «когда привезёте» и «сроки доставки» окажутся рядом в этом числовом пространстве, даже без общих слов. Так смысл превращается в математику, с которой уже можно быстро работать.
3Как устроен поиск по векторам
Когда приходит вопрос, его тоже превращают в вектор и ищут ближайшие к нему векторы-фрагменты — обычно по косинусной близости, то есть по «углу» между векторами. Возвращаются самые близкие по смыслу куски базы знаний.
Векторная база данных оптимизирована именно под такой поиск ближайших соседей среди миллионов векторов — для этого используются специальные индексы. В стеке Юнкис это pgvector — расширение PostgreSQL, которое добавляет тип «вектор» и индексы прямо в обычную базу, без отдельного специализированного хранилища.
4Векторная база как основа RAG
Полная цепочка выглядит так: документы режут на фрагменты (чанки), каждый превращают в эмбеддинг и складывают в векторную базу. На вопрос клиента система находит самые релевантные чанки и передаёт их языковой модели в контекст — а та формулирует ответ уже по ним. Это и есть RAG (Retrieval-Augmented Generation).
Поэтому векторная база — фундамент корпоративного ИИ: именно она позволяет боту отвечать по вашим данным, а не выдумывать. Качество ответов сильно зависит от того, как нарезаны чанки и какой эмбеддер используется, — об этом стоит думать ещё на этапе подготовки базы знаний.
