Особенность извлечения НЛП - PullRequest
0 голосов
/ 29 декабря 2018

Я работаю над набором данных отзывов.Проблема состоит в том, чтобы извлечь из обзоров важные (сколько раз проверенные одинаковые функции) положительные и отрицательные характеристики этого конкретного продукта.

Пример: some xyz car

положительный: Большой пробег, красивый, просторный и т. Д.

Отрицательный: Плохая мощность, плохая производительность, проблемы с программным обеспечением и т. Д.

Суть в том, чтобы извлечь самые лучшие и худшие вещи опродукт!

До сих пор я использовал gocim's doc2vec, чтобы найти лучшее положительное и отрицательное предложение.Результаты не так хороши, и потому что он получает похожие предложения со структурой, а не похожие перья, которые он держит.

Ответы [ 2 ]

0 голосов
/ 30 декабря 2018

В некоторых записях расчета «Расстояние для Word Mover», для определения похожих предложений / фраз, в качестве набора данных используются обзоры, и, похоже, они хорошо выделяют общие темы и типичные фразы.

См. Например:

"Навигация по темам в обзорах ресторанов с помощью Word Mover's Distance" http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/

"Поиск похожих документов с Word2Vec и WMD" https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

0 голосов
/ 29 декабря 2018

Похоже, вы хотите извлечь информацию о продукте, о которой чаще всего говорят в ваших обзорах.Это типичная проблема кластеризации тем.Вы можете использовать модель Latent Dirichlet Allocation для кластеризации тем.

Этот подход предоставит вам функции, после чего вы сможете запустить модель анализа настроений, чтобы узнать положительные или отрицательные настроения в отношении этой функции.

Случайно, если вы уже знаете об особенностях и хотите группировать несколько кластеров, посмотрите на этот Q & A и упомянутую статью в вопросе.

...