Я пытаюсь построить преобразователь TF / IDF (отображает наборы слов в векторы счетчиков) на основе серии Pandas, в следующем коде:
tf_idf_transformer = TfidfTransformer()
return tf_idf_transformer.fit_transform( excerpts )
Сбой при следующем сообщении:
ValueError: could not convert string to float: "I'm trying to work out, in general terms..."
Теперь «отрывки» - это серии Pandas, состоящие из набора текстовых строк, извлеченных из сообщений StackOverflow, но когда я смотрю на выдержки из dtype, там написано object
. Итак, я полагаю, что проблема может заключаться в том, что что-то выводит тип этой серии как float
. Итак, я попробовал несколько способов сделать так, чтобы в Series была dtype str
:
- . Я попытался принудительно заставить типы столбцов для информационного кадра, который включает «выдержки», равными
str
, но когда я смотрю наdtype результирующей серии, он все еще object
- Я попытался привести весь фрейм данных, который включает «выдержки» в dtypes
str
, используя Pandas.DataFrame.astype (), но «выдержки» упрямо имеютdtype object
.
Это могут быть красные сельди;настоящая проблема с fit_transform
. Может кто-нибудь предложить какой-нибудь способ, посредством которого я могу видеть, какие записи в «выдержках» вызывают проблемы, или, наоборот, просто игнорировать их (исключая их вклад в TF / IDF).