Валидация работы бота AutoFAQ и Xplain

Валидация работы бота AutoFAQ и Xplain

Сервис валидации качества бота предназначен для регулярной проверки того, насколько точно ответы бота соответствуют заданным вами эталонам.

валидация общая 1.png
Главная страница сервиса валидации

Сервис рассчитывает единую метрику качества, которая отражает работу бота в целом, и позволяет оценить качество работы бота в динамике. После любых изменений в настройках бота вы можете в один клик убедиться, что общее качество работы бота не снизилось.

Новый сервис можно открыть через пункт меню ”Валидация”, который доступен всем пользователям с ролью Супервизор.

Основные понятия сервиса валидации

Эталон

Эталон - это пример правильного ответа бота: вопрос клиента и ответ, который вы считаете верным. Сервис валидации будет проверять соответствие реального ответа бота и эталонного ответа. Оценка будет проводиться как по смыслу ответа, так и по его оформлению. В результате каждой проверки сервис валидации вернет метрику качества - степень его близости эталону, незначительные отклонения в тексте ответа без изменения смысла не приведут к низкой оценке.

Вы можете создать эталон с нуля или взять готовую пару вопрос-ответ из переписки с клиентом.

Подоробнее об создании и управлении эталонами - см раздел Эталоны

Измерение

Измерение - это процесс сверки реальных ответов и эталонных ответов у всех эталонов. Вы нажимаете кнопку и сервис задаёт боту все вопросы из активных эталонов, получает ответы и сравнивает их с ожидаемыми. По итогам вы видите оценку по каждому эталону и общую оценку за весь запуск.

Процесс измерения проводится по всем активным базам знаний бота в группе, с учетом всех настроек автоматических ответов, так как если бы вопрос задавал пользователь.

Если перед измерением отключить какую-либо базу знаний, то бот не сможет предоставить ответ из нее и сводная метрика упадет. Если перед измерение наоборот подключить новую базу знаний, то процесс проверки может получить новые ответы, которые могут не совпадать с эталонными.

Подробнее о создании измерений - см раздел Измерения

Индекс качества

Индекс качества ответа (Qi) - оценка того насколько реальный ответ бота совпал с тем, что вы задали как эталонный ответ.

В рамках измерения сервис расчитывает данную метрику для каждого эталону отдельно, а в результатах всего измерения указывается сводный индекс качества - среднее значение метрик всех эталонов. Отслеживая сводный индекс всего бота от измерения к измерению, вы сразу увидите, если что-то пошло не так.

На главной странице сервиса валидации отображается сводный индекс последнего измерения.

Начало работы

Так как сервис валидации сам по себе не знает что считать качественным ответом, то он рассчитывает качество ответов только по заданным эталонам ответов.

image-20260422-101122.png
Главная страница валидации без эталонов в начале работы

Поэтому для начала работы сервиса необходимо создать как минимум один эталон ответа. Создать его можно либо вручную через кнопку “Новый эталон” либо на основе диалога в разделе “История запросов”.

image-20260422-104013.png
Создание эталона вручную

При создании эталона можно вписать текст ответа вручную или получить текущий ответ бота через кнопку “Сгенерировать эталонный ответ” - форма создания эталона заполнит поле текста ответа и его источник. При необходимости можно отредактировать текст ответа до идеального состояния, но источник в этом случае будет убран.

При наличии качественных диалогов с пользователями можно создать эталон прямо на основе этого диалога.

image-20260422-104502.png
Создание эталона на основе диалога с пользователем в истории запросов

Для этого в контекстном меню диалога надо выбрать пункт “Создание эталонного примера”.

image-20260422-110425.png
Форма выбора пары вопрос-ответ в диалоге

В настоящее время сервис валидации умеет проверять только пары вопрос ответ, а не целиком диалог, поэтому если в диалоге было несколько пар вопрос-ответ то надо отметить нужную.

image-20260422-110837.png
Форма создания эталона из выбранной пары

При необходимости можно внести исправления в текст вопроса или ответа.

В итоге на странице валидации появятся новые эталоны.

image-20260422-111541.png
Страница валидации с новыми эталонами

Теперь можно запустить измерение и получить текущие ответы бота и метрику качества.

image-20260422-114138.png
Результаты первого измерения

После первого измерения вы получите первую метрику качества ответа бота и сможете предметно проанализировать случаи неверных ответов. В последующем эти и новые эталоны будут участвовать во всех измерениях и, если в ответе бота на эти вопросы что-то поменяется, - вы сразу узнаете об этом.

 

Главная страница валидации

На главной странице валидации показывается информация о последнем измерении для указанной группы. Сменить группу можно в шапке страницы.

валидация общая 1.png
Главная страница валидации, ч.1

Индекс качества

Блок Индекс качества показывает сводный индекс качества последнего измерения, а также изменение этой метрики относительно прошлого значения и дату последнего измерения.

Источники ответов

Показывают базы знаний AutoFAQ и Xplain на момент последнего измерения. Указано число баз знаний обоих типов, которые были включены в группе в “Ответы и рекомендации”. Кроме того для баз знаний AutoFAQ указывается число документов, для баз знаний Xplain - число подключенных источников информации.

В дальнейшем планируется дополнить блок информацией о текущем состоянии баз знаний

Настройки

Показывают основные настройки системы в части автоответов на момент последнего измерения - пороги уверенности для ответов из баз знаний AutoFAQ и Xplain и отметка об использовании уточнения вопроса в текущей группе. В дальнейшем список отоборажаемых параметров может быт расширен.

История измерений

График показывает последние 20 измерений для выбранной группы. При наведении на точку вплывает окно с настройками системы для того измерения. При клике на точку графика открывается страница выбранного измерения.

Screenshot 2026-04-10 at 09.47.36.png
Всплывающее окошко с настройками системы для измерения

Подробней про страницу описано в разделе Измерения .

Таблица эталонных примеров

валидация общая 2.png
Главная страница валидации - эталонные примеры

В таблице отображаются те эталоны, которые принимали участие в последнем измерении плюс новые эталоны, только что созданные. В дальнейшем в описании на этой странице будем подразумеваться именно последнее измерение для любого эталона в таблице.

Колонки таблицы:

  • Дата добавления - дата создания эталона;

  • Вопрос - эталонный вопрос;

  • Статус - Активен/Отключен;

  • Qi - текущая метрика эталона и % изменения метрики относительно прошлого результата;

  • Эталонный ответ;

  • Ответ последнего измерения - фактический или “потенциальный” ответ измерения;

  • Комментарий - комментарий для пары эталона+измерения.

Кнопки “Новый эталон” и “Импорт XLSX” создают новые эталоны в текущей группе. Подробней про создание эталонов здесь: Создание эталона

В таблице предусмотрена сортировка по колонкам даты добавления и метрики. А также фильтрация по дате добавления, статусу эталона и изменению метрики (положительно, отрицательно):

image-20260410-104229.png
Фильтр в таблице эталонов

Для каждого эталона в правой части есть кнопка действий. В зависимости от статуса эталона и того, новый он или принимал участие в измерении, набор доступных действий разный. Для новых эталонов доступен только вариант “Открыть” для просмотра и редактирования.

Для тех эталонов, кто принимал участие в последнем измерении доступны три действия:

image-20260410-104446.png

 

  • Открыть - перейти на страницу эталона;

  • Скопировать ссылку - копируется ссылка на пару эталон+измерение;

  • Изменить комментарий - отредактировать комментарий эталона к этому измерению.

Колонка “Ответ последнего измерения”

В процессе измерения система может либо найти ответ, который превысит установленные пороги из настроек группы, либо не найти. В случае, если такой ответ найден, он является фактическим ответом и отображается в обычной белой ячейке:

image-20260410-105240.png
Обычный ответ измерения эталона

 

А если в рамках измерения найденный ответ не побил порог уверенности обычных баз или базы Xplain, то отображается “потенциальный ответ” и поле закрашено красным и указывается пометка, почему именно нет ответа. В этом случае метрика качества (Qi) равна 0.

image-20260410-105004.png
“Потенциальный ответ” в измерении эталона
image-20260410-105405.png
“Потенциальный ответ” в измерении эталона

Дополнительно отображается % уверенности найденного ответа, который не пробил порог.

Правила заполнения потенциального ответа: если ответа в основных базах знаний не было найдено, то:

  • если ответ из Xplain имеет уверенность 11% или выше, то его записываем в потенциальный ответ и отображаем уровень уверенности найденного ответа;

  • если ответ из Xplain имеет уверенность 10% или ниже, то:

    • если потенциальный ответ баз АФ имеет уверенность 31% или выше, то показывается текст “Xplain не нашел ответ, ответ AutoFAQ”, в колонку ответа подставляется ответ из обычных баз АФ и уровень уверенности этого ответа. Если обычные БЗ или Xplain отключены, то показывается текст “Xplain получил ответ, но не пробил порог”/”AutoFAQ получил ответ, но не пробил порог”.

    • если потенциальный ответ баз АФ имеет уверенность 30% или ниже, то показывается текст “Ответа нет” и ячейка в этом случае не закрашивается красным.