Классификация текстов

Обилие разнородной не структурированной информации делает автоматическую семантическую рубрикацию [классификацию] текстов на естественном языке одной из важнейших задач современных интернет-технологий.

Области применения каталогизации текстовых документов:
  • каталогизация файлов в системах документооборота;
  • каталогизация интернет-ресурсов;
  • подбор контекстной рекламы;
  • ограничение области поиска в поисковых системах;
  • каталогизация новостных сообщений и записей в блогах.

При небольшом количестве классов и наличии качественного обучающего множества эта задача успешно решается многими из существующих алгоритмов машинного обучения, однако, с увеличением количества классов для соотнесения, точность этих методов критически снижается. Кроме того, составление достаточно репрезентативной обучающей выборки само по себе становится задачей не тривиальной.

Классификатор Инфоротра, используя базу знаний правил соотнесения, созданную инженерным подходом профессиональными лингвистами, классифицирует текстовые новостные сообщения СМИ по иерархии из более чем 180-и сематнических рубрик с точностью и полнотой более 90%.

Альтернативно, для малого количества классов, рубрикатор может быть обучен с помощью статистических алгоритмов машинного обучения, однако ни один из существующих на сегодня методов не способен дать столь высоких показателей качественных метрик при таком количестве классов.

Для работы с базой знаний семантического рубрикатора разработано сетевое графическое приложение РМЛ. Помимо редакторских возможностей РМЛ включает в себя все необходимые инструменты для координации совместной работы нескольких специалистов, редактирования эталонных обучающих выборок и автоматического расчета качественных метрик текущей версии базы знаний.