Метрики классификации документов в базе знаний
Метрики позволяют оценить качество наполнения базы знаний формулировками вопросов для предоставления автоматических ответов и подсказок операторам.
Возможно оценить:
какие документы стоит дополнить формулировками, потому что они плохо классифицируются;
какие документы хорошо классифицируются;
какой порог уверенности для автоматического ответа и ответа с уточнением является оптимальным.
Когда лучше пользоваться?
Наиболее актуально использование данной информации, если во всех документах базы знаний более 50-100 формулировок, чем больше, тем более актуально. Для случаев маршрутизации обращений на первой линии технической поддержки при больших обучающих выборках в 1000 и 10 000 документов максимально актуально.
Для случаев с малыми может быть полезно, чтобы оценить общее качество базы знаний на предмет наполнения ее формулировками для важных для вас вопросов. В дальнейшем планируется расширять аналитические инструменты по работе с базами знаний, в т.ч. на основе работы с Историей запросов.
Для просмотра метрик необходимо открыть нужную базу знаний и в меню выбрать пункт “Метрики классификации“.
Метрики пересчитываются автоматически после каждой перепубликации базы знаний.
На странице метрик находится “График "Покрытие-точность", раздел "Средняя точность" и таблица “Поклассовой точности”.
Метрики считаются на основе 10% формулировок в каждом документе базы знаний, а 90% формулировок используются обучении для последующей оценки метрик. В самой базе знаний для работы системы используется 100% формулировок.
Как пользоваться графиками и результатами оценки точности классификации.
1. График Покрытие - точность.
Позволяет оценить с какой точностью (синяя линия) и какой объем данных (горизонтальная ось) будет классифицироваться при выставленной уверенности в ответе (оранжевая линия).
Например, на рисунке выше если вы выставите 80% уверенности для автоматического ответа, то 70% ваших данных будут классифицироваться с точностью больше 80%.
“Средняя” уверенность для автоматического ответа рекомендованная нами: 80% и 60% для ответа с возможностью уточнения. На первых этапах эксплуатации % уверенность для автоматического ответа рекомендуется установить в 85% или 90%.
При малых обучающих выборках - несколько формулировок на документ, данный график не очень удобно использовать. Поэтому прежде чем принимать решение о выборе порога уверенности на основании графика важно сначала дополнить нужные документы в базе знаний формулировками и оценить с какой точностью они будут классифицироваться в Таблице Поклассовой точности.
2. Таблица “Поклассовой точности"
Позволяет оценить, какие из документов наименее полно покрыты различными формулировками. Например, на рисунке выше это документы с F1 мерой или Точностью меньше 80%. Именно их нужно дополнить новыми синонимичными вариантами вопросов для повышения качества классификации в базе знаний и количества автоматически корректных ответов.
После данного анализа вы можете дополнить различными вариантами формулировок соответствующие документы и оценить изменения в качестве классификации после перепубликации базы знаний.