База знаний AI-чата

Около 2 мин

База знаний AI-чата (RAG)

База знаний позволяет загрузить справочные документы вашего сервиса (статьи хелпа, регламенты, инструкции), и AI-чат будет отвечать пользователям, опираясь на их содержимое, а не выдумывая. Технически это RAG — Retrieval-Augmented Generation.

Только при включённом AI-модуле

База знаний — часть AI-модуля. Раздел доступен, если AI-модуль входит в вашу лицензию и включён. Если лицензия активна, но AI-модуль не подключён, вкладка «База знаний» в админке показывается только для ознакомления — настройки видны, но изменять их нельзя (отмечены замком). Чтобы пользоваться — подключите AI-модуль.

Как это работает

При загрузке документа:

Документ режется на небольшие фрагменты (чанки) с нахлёстом.
Каждый фрагмент превращается в вектор (эмбеддинг) — локальной моделью прямо на сервере, без обращения к внешним сервисам (текст документов никуда не уходит).
Векторы и оригинал сохраняются в базе (Postgres + расширение pgvector).

Когда пользователь пишет в чат:

По его вопросу система ищет наиболее подходящие фрагменты — гибридно: и по смыслу (векторный поиск), и по точным словам (полнотекстовый поиск). Векторный ловит синонимы, словесный — точные термины, коды, аббревиатуры.
Подходящие фрагменты подкладываются модели как справочный материал.
Модель формирует ответ по ним и, при необходимости, ссылается на источник.

Справка ≠ действие

Если пользователь просит выполнить действие («создай роль X»), чат выполняет его через инструменты, а не пересказывает инструкцию. База знаний используется для ответов на вопросы («как создать роль?»), а не вместо действий.

Параметры и значения по умолчанию

Параметры задаются в админке и применяются без перезапуска.

Параметр	По умолчанию	Что делает	Нужна переиндексация?
Размер чанка	320	На сколько токенов резать документ при индексации. Меньше — точнее, но обрывистее; больше — размывает смысл.	да
Нахлёст чанков	48	Перекрытие соседних фрагментов (≈10–15 %) — сохраняет смысл на стыках.	да
Порог релевантности	0.84	Минимальная близость фрагмента, чтобы попасть в ответ чата. Ниже порога — в ответ не идёт.	нет
Фрагментов в ответ (topK)	4	Сколько фрагментов подкладывать модели. Обычно 3–5.	нет
Гибридный поиск	вкл	Совмещать смысловой и словесный поиск. Рекомендуется оставить включённым.	нет

Размер чанка измеряется в условных токенах

Размер чанка считается во внутренних токенах индексатора, а не в токенах модели эмбеддингов. На русском они расходятся: значение 320 ≈ 230–275 токенов модели при её лимите 512 — то есть с запасом. Безопасный потолок — около 600. Не поднимайте размер чанка к 512 «потому что модель держит 512» — это разные единицы, иначе часть текста будет обрезана при индексации.

Что и где менять

Всё — в админке (нужны права полного доступа):

Администрирование → вкладка «База знаний» — основной экран:
- Загрузка / обновление документов (.md, .txt). Кнопка-«глаз» — просмотр оригинала, кнопка обновления — заменить файл, корзина — удалить (с подтверждением).
- «Проверить поиск» — вводите запрос и смотрите, какие фрагменты и с какой близостью поднимаются, ещё до ответа модели. Бейдж «по словам» означает точное словесное совпадение. Главный инструмент отладки.
- Параметры — размер чанка, нахлёст, порог, topK, гибрид + кнопка «Переиндексировать».
Администрирование → «Настройки приложения» — те же параметры доступны и здесь (раздел AI), как обычные настройки.

Когда нажимать «Переиндексировать»

После изменения размера чанка или нахлёста нужно переиндексировать — система заново разрежет и пересчитает все документы (из сохранённых оригиналов). Порог, topK и гибрид применяются сразу, без переиндексации.

Как подобрать параметры

Тюнить «на глаз» бесполезно — используйте «Проверить поиск»:

Соберите 10–15 типичных вопросов пользователей.
Прогоняйте их, меняя один параметр за раз.
Смотрите: попадает ли нужная статья в топ и выше ли её близость, чем у нерелевантной.
Сменили размер чанка/нахлёст — нажмите «Переиндексировать».

Наибольший эффект дают качество исходных статей и размер чанка, а не подкрутка порога. Чистые, структурированные статьи под конкретные вопросы работают лучше всего.

Модель эмбеддингов

Используется компактная многоязычная модель (multilingual-e5-small), которая работает локально на сервере. Она поставляется вместе с системой — отдельная настройка не требуется. Данные документов при индексации и поиске не покидают сервер.