Обработка пропущенных значений в анализе настроений - PullRequest
0 голосов
/ 22 сентября 2019

У меня есть набор данных зашифрованных комментариев среднего размера и соответствующие им метки, которые могут быть как положительными, так и отрицательными.Интересно, как лучше всего обработать пропущенные комментарии, учитывая, что процент пропущенных комментариев составляет 1%.Ниже приведен игрушечный пример набора данных после применения расширенного шага очистки данных.

df=pd.DataFrame({'comments':['xxy uuicz', '', 'jiko bhht'], 'label':['positive', 'negative', 'negative']})

Я использую Gensim (preprocess_string) и удаляю стоп-слова путем создания настраиваемого списка стоп-слов.Цель состоит в том, чтобы установить классификатор для прогнозирования настроения любого зашифрованного комментария.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...