Question

Я работаю над набором данных отзывов amazon. цель состоит в том, чтобы извлечь положительные и отрицательные черты каждого продукта.

например: для предложения «этот продукт имеет большой срок службы батареи» я хотел бы выделить слово «батарея» в качестве положительной характеристики.

набор данных содержит поля:

reviewerID - идентификатор рецензента, например, A2SUAM1J3GNN3B

asin - идентификатор продукта, например, 0000013714

reviewerName - имя рецензента

полезно - рейтинг полезности отзыва, например 2/3

reviewText - текст отзыва

в целом - рейтинг товара

сводка - сводка обзора

unixReviewTime - время обзора (unix время)

reviewTime - время обзора (необработанное)

До сих пор я разделил обзоры на два списка: positive_reviews и негативных_рецензий.

positive_reviews = все отзывы, имеющие оценку> 3, негативные_рецензии = все отзывы, имеющие оценку <3 * 104 5 * <p>Я очистил текст и разложил его по токенам. после этого я извлек существительные, которые появились после прилагательных, надеясь, что эти указанные c существительные будут теми функциями, которые я ищу. после этого я попытался использовать алгоритмы кластеризации (k-means, DBSCAN), надеясь, что он создаст группу, которая будет представлять функции, которые я хочу извлечь.

Результаты не очень хорошие, и я надеюсь, что у кого-то здесь может быть идея, как это работает

Peritract · Answer 1 · 26 марта 2020

Вместо кластеризации вы можете изучить топи c моделирование; это позволит вам извлечь общие темы из ваших обзоров.

Вот руководство .

НЛП - Амазонка показывает функцию извлечения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

НЛП - Амазонка показывает функцию извлечения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов