Я работаю над набором данных отзывов amazon. цель состоит в том, чтобы извлечь положительные и отрицательные черты каждого продукта.
например: для предложения «этот продукт имеет большой срок службы батареи» я хотел бы выделить слово «батарея» в качестве положительной характеристики.
набор данных содержит поля:
reviewerID - идентификатор рецензента, например, A2SUAM1J3GNN3B
asin - идентификатор продукта, например, 0000013714
reviewerName - имя рецензента
полезно - рейтинг полезности отзыва, например 2/3
reviewText - текст отзыва
в целом - рейтинг товара
сводка - сводка обзора
unixReviewTime - время обзора (unix время)
reviewTime - время обзора (необработанное)
До сих пор я разделил обзоры на два списка: positive_reviews и негативных_рецензий.
positive_reviews = все отзывы, имеющие оценку> 3, негативные_рецензии = все отзывы, имеющие оценку <3 * 104 5 * <p>Я очистил текст и разложил его по токенам. после этого я извлек существительные, которые появились после прилагательных, надеясь, что эти указанные c существительные будут теми функциями, которые я ищу. после этого я попытался использовать алгоритмы кластеризации (k-means, DBSCAN), надеясь, что он создаст группу, которая будет представлять функции, которые я хочу извлечь.
Результаты не очень хорошие, и я надеюсь, что у кого-то здесь может быть идея, как это работает