Столбец токена и идентификатор для каждого токена - PullRequest
0 голосов
/ 18 мая 2019

Хорошо, у меня есть фрейм данных с tweet_id и твиты, которые я хочу токенизировать благодаря nltk (библиотеки: pandas для манипулирования фреймами, nltk для токенизации). Я хочу перебрать каждую строку моего фрейма, чтобы токенизировать каждый твит и сохранить его в другой токен фрейма данных и соответствующий tweet_id.

Это то, что я сделал на данный момент (чтобы проверить, я ограничил количество итераций):

import pandas as pd
from nltk.tokenize import RegexpTokenizer

#file location
fi=file location
#reading through pandas 
frame=pd.read_csv(fi, sep=',', encoding='UTF-8')
#Creation of the dataframe in which i want to store each token and
##corresponding id: 
df=pd.DataFrame(columns=['tweet_id','token'])
#Iteration using iterrows: 
for index, row in frame.head().iterrows():
    df['tweet_id']=row['TWEET_ID']
    tokenizer = RegexpTokenizer(r'\w+')
    words=tokenizer.tokenize(row['TWEET'])
    for word in words:
         df['token']=word

Я ожидаю фрейм, по крайней мере, с двумя столбцами (позже я хочу интегрировать nb ответов и обнаружение сущностей), содержащий tweet_id для каждого токена, извлеченного для одного твита.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...