Question

У меня есть набор данных зашифрованных комментариев среднего размера и соответствующие им метки, которые могут быть как положительными, так и отрицательными.Интересно, как лучше всего обработать пропущенные комментарии, учитывая, что процент пропущенных комментариев составляет 1%.Ниже приведен игрушечный пример набора данных после применения расширенного шага очистки данных.

df=pd.DataFrame({'comments':['xxy uuicz', '', 'jiko bhht'], 'label':['positive', 'negative', 'negative']})

Я использую Gensim (preprocess_string) и удаляю стоп-слова путем создания настраиваемого списка стоп-слов.Цель состоит в том, чтобы установить классификатор для прогнозирования настроения любого зашифрованного комментария.

Обработка пропущенных значений в анализе настроений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обработка пропущенных значений в анализе настроений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов