Хорошо, у меня есть фрейм данных с tweet_id
и твиты, которые я хочу токенизировать благодаря nltk (библиотеки: pandas для манипулирования фреймами, nltk для токенизации). Я хочу перебрать каждую строку моего фрейма, чтобы токенизировать каждый твит и сохранить его в другой токен фрейма данных и соответствующий tweet_id.
Это то, что я сделал на данный момент (чтобы проверить, я ограничил количество итераций):
import pandas as pd
from nltk.tokenize import RegexpTokenizer
#file location
fi=file location
#reading through pandas
frame=pd.read_csv(fi, sep=',', encoding='UTF-8')
#Creation of the dataframe in which i want to store each token and
##corresponding id:
df=pd.DataFrame(columns=['tweet_id','token'])
#Iteration using iterrows:
for index, row in frame.head().iterrows():
df['tweet_id']=row['TWEET_ID']
tokenizer = RegexpTokenizer(r'\w+')
words=tokenizer.tokenize(row['TWEET'])
for word in words:
df['token']=word
Я ожидаю фрейм, по крайней мере, с двумя столбцами (позже я хочу интегрировать nb ответов и обнаружение сущностей), содержащий tweet_id для каждого токена, извлеченного для одного твита.