Проблемы, связанные с выполнением моих новых данных по анализу настроений в Твиттере - PullRequest
0 голосов
/ 07 июня 2018

Итак, я создал скрипт анализа настроений в твиттере авиакомпании, используя его в качестве справки: https://github.com/sunilpankaj/Twitter-US-Airline-Sentiment/blob/master/Cleaning%20data%20and%20prediction.ipynb

Он был обучен и оптимизирован, и у меня примерно 78,6% точности в обычно используемом наборе данных Твиттера авиакомпании CrowdFlower.

Теперь у меня есть новый набор последних твитов, которые были обработаны для удаления стоп-слов, других символов и т. Д. И помещены в файл .csv.

Это выглядит так:

southwestairlin look oper agent appli sanfrancisco Job Check Job Bus Консультант по продажам Analyt Southwestairlin Dalla Sr Citrix Engin Need Dalla Appli Southwestairlin Job Check Job System Система Engin Southwestairlin Dalla Southwestairlin Look Station Administrator Денвер Applies Техник Новый Южный Вакансии Техник Новый Южный Уэльс applies Новую вакансию Южный applies Новую вакансию в Southwarn Applies Новую вакансию в Southwarn Applies Новую работу в Южном Уэльсе на работу в южной части США на работу в южной части США на работу в Южном Южном Уэльсе на вакансию юноша в новой работе открываются на югнанять поезд schedul dalla appli job rt риск-биз фли фаа нижний стандарт найма faa deltaairlin jetblu southwestairlin

Каждая новая строка представляет отдельный твит.

Теперь я хочу ввести эти данные в классификатор I alrКаждый обучается с использованием набора данных CrowdFlower, пусть он определит настроение твита и запишет чувства в новый файл .csv, подобный следующему:

Позитивный

Нейтральный

Нейтральный

Отрицательно

Как бы я поступил так?Извините за плохое форматирование, это мой первый пост.Я также могу опубликовать некоторый код, если это поможет.

Весь мой код: Часть кода 1 Часть кода 2

1 Ответ

0 голосов
/ 07 июня 2018

Если у вас уже есть объект классификатора (например, nb = MultinomialNB ()), для которого вы вызвали метод .fit (), вы можете просто взять ту же ссылку на этот объект и вызвать для него метод предиката следующим образом:

predictions = nb.predict(new_features)

Как только у вас есть прогнозы, у вас есть несколько вариантов для помещения их в файл .csv.Если вы знакомы с фреймами данных Pandas, вы можете сделать что-то вроде:

df = pandas.DataFrame({"predictions": predictions})
df.to_csv("predictions.csv")

Или, если вы более знакомы с numpy:

np.savetxt(predictions, "predictions.csv", delimiter=",")

Примечание: Pandas имеет значительно более быстрый ввод / вывод, чемNumPy, поэтому я рекомендую его для больших наборов данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...