Как применить алгоритм классификации к текстовым данным в виде числовых токенов? - PullRequest
0 голосов
/ 20 сентября 2019

Я пытаюсь решить проблему с классификацией. Данные относятся к обзорам определенной категории продуктов с платформы электронной коммерции.Ниже приведено описание каждого атрибута:

  • id : уникальный идентификатор для каждого кортежа.
  • категория : отзывы былиразделены на две категории, представляющие положительные и отрицательные отзывы.0 обозначает положительные отзывы, а 1 обозначает отрицательные отзывы.
  • text : Содержимое токена в тексте обзора.

Образец набора данных прилагается на рисунке.

image contains the training data format which consists of the above said columns

Я думаю попробовать TF-IDF, однако, учитывая, что текстовый формат не знает, как использовать то же самое.

Я ожидаю предсказать категориюна основе предоставленного текстового столбца.

1 Ответ

0 голосов
/ 20 сентября 2019

Вы можете использовать столбец text в качестве нескольких функций, я бы порекомендовал вам разбить этот столбец ( Как разделить строку на несколько столбцов в кадре данных с пандами Python? ):

#first load dataframe (I assume it is excel format)
import pandas as pd
df = pd.read_excel('YourPath', header=True)
df['Text'].str.split('', expand=True)

затем вы можете преобразовать его в (0,1) фрейм данных:

df1 = (pd.get_dummies(df.set_index(['id', 'category']).stack())
         .max(level=0)
         .rename(columns=int)
         .reset_index())

это приведет к чему-то вроде:

id category 5002  7400 ....
 1    A         1     0 .....
 2   B         0     1

, где столбцызначения из вашего фрейма данных и заполняются только в том случае, если значение существует в этой категории

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...