word2vec для классификации документов - PullRequest
0 голосов
/ 26 сентября 2018

Я изучаю, как применять word2vec для классификации документов, но я борюсь с двумя следующими проблемами:

  1. Мой набор данных состоит из комментариев пользователей;в некоторых комментариях есть только одно слово (например, «husgmabb» или HTTP-ссылка, которую я просто конвертирую в «URL»).Могу ли я применить word2vec к набору данных, который содержит такие однословные комментарии?

  2. Мой набор данных помечен как "спам" или "ветчина";Я хочу представить каждый документ как вектор во встроенном пространстве функций, а затем создать NN для их обучения.Это правильный способ классификации документов?

Может кто-нибудь дать мне какое-то объяснение, так как я всего лишь новый способ анализа текста.Большое спасибо!

1 Ответ

0 голосов
/ 26 сентября 2018

Одних векторов слов недостаточно для классификации документов.Они могут помочь в определенных подходах.

Ваша главная цель - «выучить word2vec» или «провести эффективную классификацию документов»?Потому что, если это последнее, вы должны искать онлайн-классы / учебные пособия по классификации документов - например, те, которые обучают использованию алгоритмов scikit-learn - и следовать им.Вы только потом попадете в word2vec, если это необходимо для определенных проблем.

Например, большинство вводных алгоритмов классификации спама не используют word2vec, поэтому добавление этого в качестве дополнительной вещи для изучения, когда впервые в текстовом обучении, является дополнительным осложнением.(В конце концов, все же хорошо учиться, но лучше начать с простого.)

Тексты из одного слова могут быть мусором или не интерпретируемыми без особого контекста.(Может быть что-то не так в конструкции корпуса, если у вас есть документы из одного слова - и если вы пытались решить реальную проблему сообщества / бизнеса, то правильным решением было бы вернуться к исходному источнику данных и попробоватьчтобы извлечь лучшие примеры с большим количеством контекста - как, например, носитель текста, или любые сообщения, на которые он отвечал, и т. д.)слово как "husgmabb"?Программное обеспечение для понимания текста обычно работает на хуже , чем люди, знакомые с проблемной областью, поэтому, если вы не можете интерпретировать «husgmabb», то и алгоритм не подойдет.(Однако, если в обучающих данных есть достаточно примеров загадочного слова, чтобы человек мог его понять, если бы у них было время прочитать их все, тогда, возможно, алгоритм также может прийти к определенному пониманию.)

Таким образом, если это «одно слово» также появляется во многих других примерах, и эти другие примеры помогают прояснить, что это значит, то может появиться некоторая предсказательная сила от того, что оно появляется само по себе.Но это зависит от множества деталей, которыми вы должны поделиться, задавая более конкретные вопросы, которые объясняют больше о ваших целях, о том, что вы пробовали, и о том, что любой существующий код не выполняет то, что вы ожидаете.

...