Как использовать k средство для набора данных рекомендаций по продукту - PullRequest
1 голос
/ 18 июня 2019

У меня есть набор данных со столбцами, озаглавленными как название продукта, марка, рейтинг (1: 5), текст отзыва, обзор полезности. Что мне нужно, это предложить алгоритм рекомендации, используя отзывы. Я должен использовать Python для кодирования здесь. набор данных в формате .csv.

Чтобы определить природу набора данных, мне нужно использовать kmeans для набора данных. Как использовать средства k на этом наборе данных?

Таким образом я сделал следующее,
1. Предварительная обработка данных,
Очистка текстовых данных 2.review,
3. анализ мнений,
4. дать оценку настроения от 1 до 5 согласно значению настроения (полученному в результате анализа настроения), которое они получают, и пометить отзывы как очень отрицательные, отрицательные, нейтральные, положительные, очень положительные.

после этих процедур у меня есть эти столбцы в моем наборе данных, названии продукта, бренде, рейтинге (1: 5), тексте отзыва, полезности отзыва, значении чувства, теге чувства. Это ссылка на набор данных https://drive.google.com/file/d/1YhCJNvV2BQk0T7PbPoR746DCL6tYmH7l/view?usp=sharing

Я пытался получить k означает, используя следующий код. Он работает без ошибок. но я не знаю, что это что-то полезное или есть другие способы использовать kmeans в этом наборе данных для получения других полезных результатов. Чтобы узнать больше о данных, как я должен использовать k означает в этом наборе данных ..

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
df.info()
X = np.array(df.drop(['sentiment_value'], 1).astype(float))
y = np.array(df['rating'])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)
plt.show()

Ответы [ 2 ]

2 голосов
/ 18 июня 2019

Вы ничего не строили.

Так что ничего не появляется.

0 голосов
/ 26 июня 2019

Если вы не уточните, чего вы пытаетесь достичь, мы не сможем вам помочь. Выясните, что именно вы хотите предсказать. Вы просто хотите кластеризовать продукты в соответствии с их оценкой настроения, что не особенно многообещающе, или вы хотите предсказать фактические предпочтения продукта в новом наборе данных?

Если вы хотите создать систему рекомендаций, единственная возможность (с учетом вашего набора данных) состоит в том, чтобы идентифицировать аналогичные продукты в соответствии с рейтингом / настроением. Это то, что вы хотите?

...