Как завести новую базу знаний?

Чтобы добавить новую базу знаний в систему необходимо перейти в раздел “Базы знаний” и нажать кнопку “Новая база знаний“.

2024-03-15 17-54-05.gif

В открывшейся форме создания указать название базы знаний и настроить остальные параметры.

Основные параметры

Наименование базы знаний

Название базы знаний далее будет использоваться в интерфейсе и в отчетах в виде тематик запросов. При поступлении запроса система будет искать ответ среди всех документов, для найденного документа определится название базы знаний, которое и будет обозначать тематику запроса.

Поэтому для наименований баз рекомендуется использовать лаконичные и говорящие значения.

Язык документов

Выбирается язык для документов базы знаний. При поиске ответов сопоставляется язык запроса и язык базы знаний.

Если предусматривается режим работы, когда запросы пользователя будут приходить в основном на русском языке и ответы они будут получать на русском, то в меню можно оставить значение “Русский”.

Если предполагается, что запросы от пользователей могут поступать на разных языках, то подробные рекомендации о том, какой установить язык см. в статье Язык базы знаний

Автоматическое дообучение

Включение или выключение автоматического дообучения базы знаний. Подробнее см. в разделе
Как работает дообучение баз знаний?

Поиск в базе знаний

В данном пункте можно установить параметр поиска в базе по всему запросу пользователя или по части запроса.

По полному тексту вопроса

В данном случае система оценивает полное подобие реплик, т.е. сопоставляет весь вопрос пользователя с формулировкой, заданной в документах. Оценка полного подобия хорошо подходит в случаях, когда:

  • у вас высокие требования к качеству поиска, все сомнительные вопросы вы хотите отправлять на операторов;

  • в базе знаний много документов и разница в вопросах к ним выражается 1-2 словами.

Система сравнивает вопрос пользователя с примером вопроса полностью.

Каждому слову в вопросе пользователя система ищет соответствие в примере вопроса - аналогичное слово или синоним.

Для каждой пары слов система выставляет степень близости и в итоге рассчитывает общую уверенность поиска.

Для аналогичных слов степень близости равна 100%. Для синонимичных слов, например “купить” и ”приобрести”, степень близости будет ниже 100%, но все равно высока. Схожие по смыслу слова, например “слон” и “животное”, сервис все равно оценит как родственные, но близость будет еще ниже.

Если вопрос пользователя содержит больше слов чем пример вопроса, то общая точность поиска понижается, так как система не может найти подобие в примере вопроса. Если вопрос пользователя содержит меньше слов, то итоговая оценка так же понижается.

По части текста вопроса

В данном случае система оценивает частичное подобие реплик, т.е. сопоставляет вхождение формулировки вопроса в документе в часть сообщения пользователя. Этот механизм идеально подходит в случаях когда:

  • ваши пользователи могут задать вопрос разного объема, но в вопросе важно уловить намерение

  • у вас пока нет возможности накопить все варианты вопросов пользователя

Система ищет вхождения примера вопроса в реплику пользователя.

Каждому слову в примере вопроса система ищет пару в вопросе пользователя - аналогичное слово или синоним. Слова в вопросе пользователя, которым не нашлась пара, просто игнорируются.

Система может оценивать близость не только слов, но и близость словосочетаний, например “Мне нужно” и “Я хочу”.

Если вопрос пользователя содержит меньше слов чем пример вопроса, то общая точность поиска понижается.

Дополнительные параметры

Механизм понимания вопросов

В зависимости от числа документов и примеров формулировок вопросов в них все базы знаний делятся на 2 группы:

базы знаний с малым числом примеров

В базах знаний с малым числом примеров система попарно сравнивает вопрос пользователя с каждым примером вопроса в документах. Механизм поиска зависит от параметра, установленного в меню “Поиск в базе знаний”: по полному или частичному соответствию. См. описание выше.

базы знаний с большим числом примеров

Когда в документах базы знаний накопится большое число примеров вопросов, база знаний автоматически переключится в режим классификатора на больших данных. В этом случае входящий вопрос пользователя сравнивается не с каждым примером попарно, а сразу с большим массивом усредненных примеров.

В данном случае не важно, как установлена настройка “Поиск по базе знаний“ - система усреднит все собранные примеры и автоматически вычленит наиболее важные признаки для каждого документа. Достаточно добавить в число примеров различные варианты вопроса - остальное возьмет на себя механизм поиска.

 

По умолчанию, выставлено значение “выбирать автоматически”. В данном случае система сама переключит механизм поиска ответов, когда накопится необходимое количество документов и формулировок в них.

При необходимости можно установить данный параметр самостоятельно.

Искать несколько вопросов в сообщении

При включении данного параметра система попробует найти несколько вопросов в сообщении пользователя.

Защита от ввода дублирующихся формулировок

Дублирование вопросов в разных документах может привести к непрогнозируемой реакции бота на вопрос пользователя. Бот будет выбирать случайный документ из тех, в которые внесены дублирующиеся формулировки вопросов.

Важно отметить, что близкими могут быть вопросы, не обязательно совпадающие до единой буквы. Система оценивает близость по смысловой наполненности фразы.

Для борьбы с дублированием формулировок вопросов сервис контролирует каждое изменение набора вопросов в базах знаний:

  • добавление нового документа

  • добавление новой формулировки в существующем документе

  • редактирование вопроса или формулировки вопроса в существующем документе

Процесс контроля состоит в том, что система задает новую формулировку вопроса сама себе и, если ответ был найден с уверенностью выше установленного порога, система заблокирует добавление или изменение формулировки.

Чтобы отключить проверку на дубликаты, установите значение 100%.

Защита от ввода повторяющихся ответов

Чтобы контролировать в системе создание одинаковых ответов, используйте данный параметр. База проверит существующие ответы и не позволит создать новый документ с аналогичным ответом. Ответ считается аналогичным, если он отличается от существующих ответов меньше, чем на указанное количество символов. Для отключения защиты ответов установите значение 0.