Как нормализовать и стандартизировать строковые данные - PullRequest
0 голосов
/ 09 января 2020

как я могу сделать normalize () или StandardScaler (), если данные все еще в строковом формате? параметр должен быть tfidf? и как я могу вручную преобразовать строку в tfidf, когда я не использую конвейер? я получил ошибку, как это: ValueError: не удалось преобразовать строку в плавающее: 'お 気 に 入 り の Ubuntu: 無償 OS & amp; う ソ フ ト で 何 で も 揃 う! : 10 04 LTS 日本語 Remix 版 '

после того, как я позвонил

 X_train, X_test, y_train, y_test = train_test_split(
                                      df.body_wakati,  #data
                                      y,  #here the y is classification
                                      test_size=0.2,
                                      random_state=10,
                                      shuffle=True
)

X_train - строка enter image description here

редактировать: код

1 Ответ

0 голосов
/ 09 января 2020

Вы не можете стандартно масштабировать или нормализовать строковые данные, вы можете сделать это только с числами. Для большинства распространенных алгоритмов вам необходимо каким-то образом преобразовать ваши строковые данные в числа, чтобы вы могли использовать их в своем алгоритме. Мне не понятно, какой у тебя текст. Если это ограниченное количество предопределенных входных данных, вы можете рассматривать его как категориальную переменную и быстро кодировать. Если это больше похоже на свободный текст, вам нужно использовать методы обработки естественного языка (NLP). Это большое поле, но введение можно найти здесь .

...