Поиск ответов в базе знаний

Для каждого вопроса пользователя система ищет в базах знаний наиболее релевантные документы. На основе результатов поиска складывается автоматический ответ пользователю или набор рекомендаций оператору.

В этой статье описано как система может оценивать подобие вопроса пользователя и примеров вопросов в документах, как управлять механизмом поиска и какие лучше вносить примеры для более качественной работы баз знаний.

Настройки базы знаний

Основные настройки баз знаний можно найти в меню конкретной базы знаний.

Настройки конкретной базы знаний

 

На поиск по базе знаний влияют следующие настройки базы знаний:

  • Язык документов

  • Поиск по базе знаний

Настройка “Язык документов” указывает на то на каком языке в документах хранятся примеры вопросов и на каком языке ожидаются вопросы пользователя. Вопрос пользователя поступишвий на другом языке получит плохие результаты поиска. Подробнее о языке базы знаний смотрите в разделе Язык базы знаний.

Настройка “Поиск в базе знаний” указывает на один из вариантов поиска:

  • по полному тексту вопроса - система оценивает полное подобие реплик

  • по части текста вопроса - система оценивает частичное подобие реплик

 

Так же, в зависимости от числа документов и примеров формулировок вопросов в них все базы знаний делятся на 2 группы:

  • базы знаний с малым числом формулировок

  • базы знаний с большим числом формулировок

В базах знаний с малым числом примеров система попарно сравнивает вопрос пользователя с каждым примером вопроса в документах. Процедура сравнения зависит от настройки “Поиск по базе знаний” - каждый вариант детально описан ниже.

В базах знаний с большим числом примеров входящий вопрос пользователя оценивается сразу во всем накопленным массивом примеров. Управление такими базами знаний описано отдельно.

По умолчанию значение настроек для этого параметра задано “автоматически”, система сама определяет какой режим использовать.

Описание ниже схематично, но дает принципиальное понимание работы механизма поиска.

Оценка полного подобия

Система сравнивает вопрос пользователя с примером вопроса полностью.

Каждому слову в вопросе пользователя система ищет соотвествие в примере вопроса - аналогичное слово или синоним.

Для каждой пары слов система выставляет степень близости и в итоге рассчитывает общую уверенность поиска.

Для аналогичных слов степень близости равна 100%. Для синонимичных слов, например “купить” и ”приобрести”, степень близости будет ниже 100%, но все равно высока. Схожие по смыслу слова, например “слон” и “животное”, сервис все равно оценит как родственные, но близость будет еще ниже.

Если вопрос пользователя содержит больше слов чем пример вопроса, то общая точность поиска понижается, так как система не может найти подобие в примере вопроса. Если вопрос пользователя содержит меньше слов, то итоговая оценка так же понижается.

Оценка полного подобия хорошо подходит в случаях, когда:

  • у вас высокие требования к качеству поиска, все сомнительные вопросы вы хотите отправлять на операторов;

  • в базе знаний много документов и разница в вопросах к ним выражается 1-2 словами.

Оценка частичного подобия

Система ищет вхождения примера вопроса в реплику пользователя.

Каждому слову в примере вопроса система ищет пару в вопросе пользователя - аналогичное слово или синоним. Слова в вопросе пользователя, которым не нашлась пара, просто игнорируются.

Система может оценивать близость не только слов, но и близость словосочетаний, например “Мне нужно” и “Я хочу”.

Если вопрос пользователя содержит меньше слов чем пример вопроса, то общая точность поиска понижается.

Этот механизм идеально подходит в случаях когда:

  • ваши пользователи могут задать вопрос разного объема, но в вопросе важно уловить намерение

  • у вас пока нет возможности накопить все варианты вопросов пользователя

 

Классификация на большом числе примеров

Когда в документах базы знаний накопится большое число примеров вопросов, база знаний автоматически переключится в режим классификатора на больших данных.

В этом случае входящий вопрос пользователя сравнивается не с каждым примером попарно, а сразу с большим массивом усредненных примеров.

В данном случае не важно как установлена настройка “Поиск по базе знаний“ - система усреднит все собранные примеры и автоматически вычленит наиболее важные признаки для каждого документа. Достаточно добавить в число примеров различные варианты вопроса - остальное возьмет на себя механизм поиска.