НЛП - Амазонка показывает функцию извлечения - PullRequest
0 голосов
/ 26 марта 2020

Я работаю над набором данных отзывов amazon. цель состоит в том, чтобы извлечь положительные и отрицательные черты каждого продукта.

например: для предложения «этот продукт имеет большой срок службы батареи» я хотел бы выделить слово «батарея» в качестве положительной характеристики.

набор данных содержит поля:

reviewerID - идентификатор рецензента, например, A2SUAM1J3GNN3B

asin - идентификатор продукта, например, 0000013714

reviewerName - имя рецензента

полезно - рейтинг полезности отзыва, например 2/3

reviewText - текст отзыва

в целом - рейтинг товара

сводка - сводка обзора

unixReviewTime - время обзора (unix время)

reviewTime - время обзора (необработанное)

До сих пор я разделил обзоры на два списка: positive_reviews и негативных_рецензий.

positive_reviews = все отзывы, имеющие оценку> 3, негативные_рецензии = все отзывы, имеющие оценку <3 * 104 5 * <p>Я очистил текст и разложил его по токенам. после этого я извлек существительные, которые появились после прилагательных, надеясь, что эти указанные c существительные будут теми функциями, которые я ищу. после этого я попытался использовать алгоритмы кластеризации (k-means, DBSCAN), надеясь, что он создаст группу, которая будет представлять функции, которые я хочу извлечь.

Результаты не очень хорошие, и я надеюсь, что у кого-то здесь может быть идея, как это работает

1 Ответ

0 голосов
/ 26 марта 2020

Вместо кластеризации вы можете изучить топи c моделирование; это позволит вам извлечь общие темы из ваших обзоров.

Вот руководство .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...