Метрики классификации документов в базе знаний

Метрики позволяют оценить качество наполнения базы знаний формулировками вопросов для предоставления автоматических ответов и подсказок операторам.

Возможно оценить:

  • какие документы стоит дополнить формулировками, потому что они плохо классифицируются

  • какие документы хорошо классифицируются

  • какой порог уверенности для автоматического ответа и ответа с уточнением является оптимальным

Когда лучше пользоваться?
Наиболее актуально использование данной информации, если во всех документах базы знаний более 50-100 формулировок, чем больше, тем более актуально. Для случаев маршрутизации обращений на первой линии технической поддержки при больших обучающих выборках в 1000 и 10 000 документов максимально актуально.
Для случаев с малыми может быть полезно, чтобы оценить общее качество базы знаний на предмет наполнения ее формулировками для важных для вас вопросов. В дальнейшем планируется расширять аналитические инструменты по работе с базами знаний в т.ч. на основе работы с Историей запросов.

Для просмотра метрик необходимо открыть нужную базу знаний и в меню выбрать пункт “Метрики классификации“.

 

Метрики пересчитываются автоматически после каждой перепубликации базы знаний.

На странице метрик находится “График "Покрытие-точность", раздел "Средняя точность" и таблица “Поклассовой точности”.

 

Метрики считаются на основе 10% формулировок в каждом документе базы знаний, а 90% формулировок используются обучении для последующей оценки метрик. В самой базе знаний для работы системы используется 100% формулировок.

 

Как пользоваться графиками и результатами оценки точности классификации.

1. График Покрытие - точность.


Позволяет оценить с какой точностью (синяя линия) и какой объем данных (горизонтальная ось) будет классифицироваться при выставленной уверенности в ответе (оранжевая линия).

Например, на рисунке выше если вы выставите 80% уверенности для автоматического ответа, то 70% ваших данных будут классифицироваться с точностью больше 80%.

“Средняя” уверенность для автоматического ответа рекомендованная нами: 80% и 60% для ответа с возможностью уточнения. На первых этапах эксплуатации % уверенность для автоматического ответа рекомендуется установить в 85% или 90%.
При малых обучающих выборках - несколько формулировок на документ, данный график не очень удобно использовать. Поэтому прежде чем принимать решение о выборе порога уверенности на основании графика важно сначала дополнить нужные документы в базе знаний формулировками и оценить с какой точностью они будут классифицироваться в Таблице Поклассовой точности.

2. Таблица “Поклассовой точности"

Позволяет оценить какие из документов наименее полно покрыты различными формулировками. Например, на рисунке выше это документы с F1 мерой или Точностью меньше 80%. Именно их нужно дополнить новыми синонимичными вариантами вопросов для повышения качества классификации в базе знаний и количества автоматически корректных ответов.

После данного анализа вы можете дополнить различными вариантами формулировок соответствующие документы и оценить изменения в качестве классификации после перепубликации базы знаний.