Я читаю CSV-файл и преобразую его в следующий фрейм данных:
Unnamed: 0 id created_at \
0 0 837009605112836101 Wed Mar 01 18:40:15 +0000 2017
1 1 837011192057118723 Wed Mar 01 18:46:33 +0000 2017
2 2 837105428622376960 Thu Mar 02 01:01:01 +0000 2017
3 3 837114260715077633 Thu Mar 02 01:36:07 +0000 2017
4 4 843749288383528965 Mon Mar 20 09:01:21 +0000 2017
text user geo label \
0 Liking the comeback of the but already lookin... Chi0Nine NaN bot
1 El regreso del icono Toni_mac_ NaN bot
2 which phone is still on your mind w desaimilan18 NaN bot
3 relaunch this is how the internet reacts gizbotcom NaN bot
4 TA1038 clears certification at FCC c gizbotcom NaN bot
posemo negemo sentiment
0 1333.0 0.0 positive
1 0.0 0.0 neutral
2 0.0 0.0 neutral
3 0.0 0.0 neutral
4 0.0 0.0 neutral
Я хочу сгруппировать этот фрейм по дате и выполнить алгоритм svm для данных каждого дня.В частности, в качестве входных данных для алгоритма мне нужны столбцы text и sentiment.
Я использую TfidfVectorizer, train_test_split, OneVsOneClassifier, OneVsRestClassifier и LinearSVC из sklearn.
Мой код для группировки похож на этотна данный момент:
.
.
csv_file = sys.argv[1]
df = pd.read_csv(csv_file)
df['created_at']= pd.to_datetime(df['created_at'])
df['created_at'] = df['created_at'].apply(lambda df:datetime.datetime(year=df.year, month=df.month, day=df.day))
df = df.set_index('created_at')
df.groupby('created_at', as_index=False)
Вывод кадра данных после группировки по операции выглядит следующим образом:
Unnamed: 0 id \
created_at
2017-03-01 0 837009605112836101
2017-03-01 1 837011192057118723
2017-03-02 2 837105428622376960
2017-03-02 3 837114260715077633
2017-03-20 4 843749288383528965
text user \
created_at
2017-03-01 Liking the comeback of the but already lookin... Chi0Nine
2017-03-01 El regreso del icono Toni_mac_
2017-03-02 which phone is still on your mind w desaimilan18
2017-03-02 relaunch this is how the internet reacts gizbotcom
2017-03-20 TA1038 clears certification at FCC c gizbotcom
geo label posemo negemo sentiment
created_at
2017-03-01 NaN bot 1333.0 0.0 positive
2017-03-01 NaN bot 0.0 0.0 neutral
2017-03-02 NaN bot 0.0 0.0 neutral
2017-03-02 NaN bot 0.0 0.0 neutral
2017-03-20 NaN bot 0.0 0.0 neutral
Не могли бы вы помочь мне разобраться, как поступить с этим?
Спасибо!