Подготовка и сортировка данных НЛП для задачи классификации текста - PullRequest
0 голосов
/ 04 марта 2019

Я прочитал много учебников в Интернете и темы по stackoverflow, но один вопрос для меня все еще неясен.Если рассматривать только стадию сбора данных для многокомпонентного обучения, какой способ (см. Ниже) лучше и являются ли они приемлемыми и эффективными?

  1. Попробуйте найти «чистые» примеры с одной надписью любой ценой.
  2. Каждый пример может быть с несколькими надписями.

Например, у меня естьстатьи о войне, политике, экономике, культуре.Обычно политика, связанная с экономикой, война, связанная с политикой, вопросы экономики могут появляться в статьях по культуре и т. Д. Я могу назначить строго одну основную тему для каждого примера и отбросить неопределенные работы или назначить 2, 3 темы.

Я собираюсь обучить данные, используя Spacy, объем данных будет составлять около 5-10 тысяч примеров по теме.

Буду благодарен за любые объяснения и / или ссылку нанекоторое уместное обсуждение.

1 Ответ

0 голосов
/ 04 марта 2019

Вы можете попробовать стратегию OneVsAll / OneVsRest .Это позволит вам сделать и то и другое: точно предсказать одну категорию без необходимости строго присваивать одну метку.

Эта стратегия, также известная как «один против всех», заключается в подборе одного классификатора на класс.Для каждого классификатора класс сопоставляется со всеми другими классами.В дополнение к его вычислительной эффективности (необходимы только классификаторы n_classes), одним из преимуществ этого подхода является его интерпретируемость.Поскольку каждый класс представлен только одним и одним классификатором, можно получить знания о классе, изучив его соответствующий классификатор.Это наиболее часто используемая стратегия для классификации с несколькими классами и является справедливым выбором по умолчанию.

Эта стратегия также может использоваться для обучения с несколькими метками, где классификатор используется для прогнозирования нескольких меток, например, путем подгонки к 2-d матрица, в которой ячейка [i, j] равна 1, если в образце i есть метка j, а в противном случае - 0.

Ссылка на документы: https://scikit -learn.org / stable / modules/generated/sklearn.multiclass.OneVsRestClassifier.html

...