База знаний AI-чата
База знаний AI-чата (RAG)
База знаний позволяет загрузить справочные документы вашего сервиса (статьи хелпа, регламенты, инструкции), и AI-чат будет отвечать пользователям, опираясь на их содержимое, а не выдумывая. Технически это RAG — Retrieval-Augmented Generation.
Только при включённом AI-модуле
База знаний — часть AI-модуля. Раздел доступен, если AI-модуль входит в вашу лицензию и включён. Если лицензия активна, но AI-модуль не подключён, вкладка «База знаний» в админке показывается только для ознакомления — настройки видны, но изменять их нельзя (отмечены замком). Чтобы пользоваться — подключите AI-модуль.
Как это работает
При загрузке документа:
- Документ режется на небольшие фрагменты (чанки) с нахлёстом.
- Каждый фрагмент превращается в вектор (эмбеддинг) — локальной моделью прямо на сервере, без обращения к внешним сервисам (текст документов никуда не уходит).
- Векторы и оригинал сохраняются в базе (Postgres + расширение
pgvector).
Когда пользователь пишет в чат:
- По его вопросу система ищет наиболее подходящие фрагменты — гибридно: и по смыслу (векторный поиск), и по точным словам (полнотекстовый поиск). Векторный ловит синонимы, словесный — точные термины, коды, аббревиатуры.
- Подходящие фрагменты подкладываются модели как справочный материал.
- Модель формирует ответ по ним и, при необходимости, ссылается на источник.
Справка ≠ действие
Если пользователь просит выполнить действие («создай роль X»), чат выполняет его через инструменты, а не пересказывает инструкцию. База знаний используется для ответов на вопросы («как создать роль?»), а не вместо действий.
Параметры и значения по умолчанию
Параметры задаются в админке и применяются без перезапуска.
| Параметр | По умолчанию | Что делает | Нужна переиндексация? |
|---|---|---|---|
| Размер чанка | 320 | На сколько токенов резать документ при индексации. Меньше — точнее, но обрывистее; больше — размывает смысл. | да |
| Нахлёст чанков | 48 | Перекрытие соседних фрагментов (≈10–15 %) — сохраняет смысл на стыках. | да |
| Порог релевантности | 0.84 | Минимальная близость фрагмента, чтобы попасть в ответ чата. Ниже порога — в ответ не идёт. | нет |
| Фрагментов в ответ (topK) | 4 | Сколько фрагментов подкладывать модели. Обычно 3–5. | нет |
| Гибридный поиск | вкл | Совмещать смысловой и словесный поиск. Рекомендуется оставить включённым. | нет |
Размер чанка измеряется в условных токенах
Размер чанка считается во внутренних токенах индексатора, а не в токенах модели эмбеддингов. На русском они расходятся: значение 320 ≈ 230–275 токенов модели при её лимите 512 — то есть с запасом. Безопасный потолок — около 600. Не поднимайте размер чанка к 512 «потому что модель держит 512» — это разные единицы, иначе часть текста будет обрезана при индексации.
Что и где менять
Всё — в админке (нужны права полного доступа):
- Администрирование → вкладка «База знаний» — основной экран:
- Загрузка / обновление документов (
.md,.txt). Кнопка-«глаз» — просмотр оригинала, кнопка обновления — заменить файл, корзина — удалить (с подтверждением). - «Проверить поиск» — вводите запрос и смотрите, какие фрагменты и с какой близостью поднимаются, ещё до ответа модели. Бейдж «по словам» означает точное словесное совпадение. Главный инструмент отладки.
- Параметры — размер чанка, нахлёст, порог, topK, гибрид + кнопка «Переиндексировать».
- Загрузка / обновление документов (
- Администрирование → «Настройки приложения» — те же параметры доступны и здесь (раздел AI), как обычные настройки.
Когда нажимать «Переиндексировать»
После изменения размера чанка или нахлёста нужно переиндексировать — система заново разрежет и пересчитает все документы (из сохранённых оригиналов). Порог, topK и гибрид применяются сразу, без переиндексации.
Как подобрать параметры
Тюнить «на глаз» бесполезно — используйте «Проверить поиск»:
- Соберите 10–15 типичных вопросов пользователей.
- Прогоняйте их, меняя один параметр за раз.
- Смотрите: попадает ли нужная статья в топ и выше ли её близость, чем у нерелевантной.
- Сменили размер чанка/нахлёст — нажмите «Переиндексировать».
Наибольший эффект дают качество исходных статей и размер чанка, а не подкрутка порога. Чистые, структурированные статьи под конкретные вопросы работают лучше всего.
Модель эмбеддингов
Используется компактная многоязычная модель (multilingual-e5-small), которая работает локально на сервере. Она поставляется вместе с системой — отдельная настройка не требуется. Данные документов при индексации и поиске не покидают сервер.