Question

как я могу сделать normalize () или StandardScaler (), если данные все еще в строковом формате? параметр должен быть tfidf? и как я могу вручную преобразовать строку в tfidf, когда я не использую конвейер? я получил ошибку, как это: ValueError: не удалось преобразовать строку в плавающее: 'お気に入りの Ubuntu: 無償 OS & amp; うソフトで何でも揃う! : 10 04 LTS 日本語 Remix 版 '

после того, как я позвонил

 X_train, X_test, y_train, y_test = train_test_split(
                                      df.body_wakati,  #data
                                      y,  #here the y is classification
                                      test_size=0.2,
                                      random_state=10,
                                      shuffle=True
)

X_train - строка

редактировать: код

Robert King · Answer 1 · 09 января 2020

Вы не можете стандартно масштабировать или нормализовать строковые данные, вы можете сделать это только с числами. Для большинства распространенных алгоритмов вам необходимо каким-то образом преобразовать ваши строковые данные в числа, чтобы вы могли использовать их в своем алгоритме. Мне не понятно, какой у тебя текст. Если это ограниченное количество предопределенных входных данных, вы можете рассматривать его как категориальную переменную и быстро кодировать. Если это больше похоже на свободный текст, вам нужно использовать методы обработки естественного языка (NLP). Это большое поле, но введение можно найти здесь .

Как нормализовать и стандартизировать строковые данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как нормализовать и стандартизировать строковые данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы