Технологии

Гибридный RAG-поиск: как ИИ-бот находит нужный товар и не выдумывает

Чистый векторный поиск понимает смысл запроса, но легко путает соседние категории и предлагает товары дороже названного бюджета. Точный поиск по словам не спотыкается на категориях, но не понимает «стиралку» и синонимы. Гибридный RAG совмещает оба подхода и добавляет сверху жёсткие фильтры по цене и наличию. Разбираем на реальных примерах, где промахивается каждый метод по отдельности и почему именно гибрид спасает бота от галлюцинаций.

3 июля 2026 г.9 мин чтенияРедакция Юнкис

Коротко о главном

  • Чистый вектор путает соседние категории, не понимает бюджет и теряет контекст коротких уточнений — для каталогов этого мало.
  • Гибрид ставит перед вектором лексический слой: сопоставление слов запроса с деревом категорий плюс подмешивание контекста диалога.
  • Наличие, цена и числовые характеристики — жёсткие фильтры поверх поиска, а не пожелания к семантике.
  • От галлюцинаций защищает пост-проверка ответа: белый список ссылок из базы и отбрасывание рекомендаций без источника.

1Где промахивается чистый векторный поиск

Векторный поиск превращает запрос и документы в числовые представления смысла и находит ближайшие. Это сильно: «ванна для двоих» найдёт просторные ванны, даже если слова «двоих» нет ни в одной карточке. Но у метода есть слепые зоны, которые больно бьют именно по каталогам.

Первая — категории-соседи. «Унитазы» и «Бачки для унитазов» по смыслу почти неразличимы, и бот может уверенно отвечать про бачки на вопрос об унитазах. Вторая — числа: вектор не понимает «до 30 тысяч», и дорогие товары вытесняют из выдачи подходящие по бюджету. Третья — короткие уточнения: реплика «горизонтальный до 12000» без слова «унитаз» из предыдущего сообщения превращается для поиска в шум.

2Что добавляет гибрид: лексика, категории и контекст диалога

Гибридный поиск ставит перед вектором лексический слой. Сначала система пытается сопоставить слова запроса с деревом категорий каталога — по основам слов «кондиционер» уверенно приводит в «Кондиционеры» — и ищет внутри найденной категории. Не удалось определить категорию — поиск честно падает в чистый вектор, а не молчит.

Второй элемент — контекст диалога: к короткому уточнению подмешивается предыдущее сообщение клиента, и «горизонтальный до 12000» снова становится запросом про унитазы. Такая связка закрывает большинство промахов: лексика даёт точность там, где слова совпадают, вектор — полноту там, где клиент говорит своими словами.

3Жёсткие фильтры поверх смысла

Третий слой гибрида — фильтры, которые нельзя доверять «смыслу», потому что это условия, а не семантика:

  • Наличие. Либо в индекс попадают только доступные товары, либо выдача жёстко фильтруется по признаку «в наличии» — иначе бот продаёт то, чего нет.
  • Цена. Если в запросе распознан бюджет («до 30 000»), он превращается в числовое условие поверх поиска, а не в пожелание.
  • Числовые характеристики. Мощность, напор, площадь и подобные параметры хранятся в карточках отдельными тегами — модель подбирает по ним точно, а не «на глаз».
  • Синонимы характеристик. «Какой напор» и «высота подъёма» — об одном и том же; словарь синонимов подмешивает канонические термины в запрос перед поиском.

4Последний рубеж: защита от галлюцинаций

Даже с хорошим поиском остаётся риск: если модель получила слабый контекст, она может «дорисовать» ответ брендами, знакомыми ей из обучения, — с правдоподобными ценами. Причём этим грешат и сильные модели: апгрейд LLM проблему не лечит, лечит качество поиска плюс проверка ответа.

Поэтому финальный слой — пост-фильтры ответа. Из найденных карточек собирается белый список ссылок; ссылки не из списка вырезаются из ответа, а строки-рекомендации с ценой, рядом с которыми нет ссылки-источника, отбрасываются целиком. В связке с правилом промпта «не называть товар без ссылки из базы» это закрывает путь выдуманным товарам до клиента.

Частые вопросы

Чем гибридный RAG отличается от обычного?+
Обычный RAG ищет только по векторной близости — «по смыслу». Гибридный добавляет лексический слой (совпадение слов, сопоставление с категориями каталога), жёсткие фильтры по цене и наличию и контекст диалога. Точность на каталожных запросах вырастает в разы именно за счёт этих слоёв.
Почему бот предлагает товары, которых нет в каталоге?+
Когда поиск отдал модели слабый или пустой контекст, она заполняет пробел брендами из своего обучения. Лечится не сменой модели, а качеством поиска и пост-фильтрами: белый список ссылок из базы, запрет называть товары без источника и отбрасывание строк с ценой без ссылки.
Нужен ли гибридный поиск маленькому каталогу?+
Чем меньше каталог, тем реже вектор промахивается, но фильтры наличия и цены нужны при любом размере — «продать то, чего нет» можно и из ста позиций. Полный гибрид с категориями становится критичен на каталогах с развесистым деревом разделов и близкими категориями.
гибридный поискragвекторный поискгаллюцинации ииии для интернет-магазина

Хотите ИИ-агента для своего бизнеса?

Попробуйте Юнкис бесплатно — первые 90 сообщений в подарок.

Попробовать бесплатно
Bot Avatar
ИИ-ассистент Юнкис
💻 Записаться на Zoom-экскурсию?