Мне кажется, что это не целевое использование to_string()
, которое, насколько я понимаю, предназначено для консольного вывода (хотя я могу ошибаться).Как насчет:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
tokens = [word for row in df['file_data'].apply(nltk.sent_tokenize).values for sent in row for
word in nltk.word_tokenize(sent)]
Я не уверен, что это сработает так, как задумано, если вы опубликуете короткий образец данных, которые я могу проверить.