Сгруппируйте фрейм данных по дате для извлечения ежедневных результатов из алгоритма svm, используя панд - PullRequest
0 голосов
/ 21 февраля 2019

Я читаю CSV-файл и преобразую его в следующий фрейм данных:

    Unnamed: 0                  id                      created_at  \
0           0  837009605112836101  Wed Mar 01 18:40:15 +0000 2017   
1           1  837011192057118723  Wed Mar 01 18:46:33 +0000 2017   
2           2  837105428622376960  Thu Mar 02 01:01:01 +0000 2017   
3           3  837114260715077633  Thu Mar 02 01:36:07 +0000 2017   
4           4  843749288383528965  Mon Mar 20 09:01:21 +0000 2017   

                                                text          user  geo label  \
0  Liking the comeback of the  but already lookin...      Chi0Nine  NaN   bot   
1                        El regreso del icono     Toni_mac_  NaN   bot   
2                which phone is still on your mind w  desaimilan18  NaN   bot   
3     relaunch this is how the internet reacts     gizbotcom  NaN   bot   
4         TA1038 clears certification at FCC c     gizbotcom  NaN   bot   

   posemo  negemo sentiment  
0  1333.0     0.0  positive  
1     0.0     0.0   neutral  
2     0.0     0.0   neutral  
3     0.0     0.0   neutral  
4     0.0     0.0   neutral

Я хочу сгруппировать этот фрейм по дате и выполнить алгоритм svm для данных каждого дня.В частности, в качестве входных данных для алгоритма мне нужны столбцы text и sentiment.

Я использую TfidfVectorizer, train_test_split, OneVsOneClassifier, OneVsRestClassifier и LinearSVC из sklearn.

Мой код для группировки похож на этотна данный момент:

.

.
csv_file = sys.argv[1]

df = pd.read_csv(csv_file)

df['created_at']= pd.to_datetime(df['created_at'])

df['created_at'] = df['created_at'].apply(lambda df:datetime.datetime(year=df.year, month=df.month, day=df.day))

df = df.set_index('created_at')

df.groupby('created_at', as_index=False)

Вывод кадра данных после группировки по операции выглядит следующим образом:

            Unnamed: 0                  id  \
created_at                                   
2017-03-01           0  837009605112836101   
2017-03-01           1  837011192057118723   
2017-03-02           2  837105428622376960   
2017-03-02           3  837114260715077633   
2017-03-20           4  843749288383528965   

                                                         text          user  \
created_at                                                                    
2017-03-01  Liking the comeback of the  but already lookin...      Chi0Nine   
2017-03-01                                El regreso del icono     Toni_mac_   
2017-03-02                which phone is still on your mind w  desaimilan18   
2017-03-02     relaunch this is how the internet reacts     gizbotcom   
2017-03-20         TA1038 clears certification at FCC c     gizbotcom   

            geo label  posemo  negemo sentiment  
created_at                                       
2017-03-01  NaN   bot  1333.0     0.0  positive  
2017-03-01  NaN   bot     0.0     0.0   neutral  
2017-03-02  NaN   bot     0.0     0.0   neutral  
2017-03-02  NaN   bot     0.0     0.0   neutral  
2017-03-20  NaN   bot     0.0     0.0   neutral

Не могли бы вы помочь мне разобраться, как поступить с этим?

Спасибо!

...