У меня есть набор данных со столбцами, озаглавленными как название продукта, марка, рейтинг (1: 5), текст отзыва, обзор полезности. Что мне нужно, это предложить алгоритм рекомендации, используя отзывы. Я должен использовать Python для кодирования здесь. набор данных в формате .csv.
Чтобы определить природу набора данных, мне нужно использовать kmeans для набора данных. Как использовать средства k на этом наборе данных?
Таким образом я сделал следующее,
1. Предварительная обработка данных,
Очистка текстовых данных 2.review,
3. анализ мнений,
4. дать оценку настроения от 1 до 5 согласно значению настроения (полученному в результате анализа настроения), которое они получают, и пометить отзывы как очень отрицательные, отрицательные, нейтральные, положительные, очень положительные.
после этих процедур у меня есть эти столбцы в моем наборе данных, названии продукта, бренде, рейтинге (1: 5), тексте отзыва, полезности отзыва, значении чувства, теге чувства.
Это ссылка на набор данных https://drive.google.com/file/d/1YhCJNvV2BQk0T7PbPoR746DCL6tYmH7l/view?usp=sharing
Я пытался получить k означает, используя следующий код. Он работает без ошибок. но я не знаю, что это что-то полезное или есть другие способы использовать kmeans в этом наборе данных для получения других полезных результатов. Чтобы узнать больше о данных, как я должен использовать k означает в этом наборе данных ..
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
df.info()
X = np.array(df.drop(['sentiment_value'], 1).astype(float))
y = np.array(df['rating'])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
random_state=None, tol=0.0001, verbose=0)
plt.show()