Я запустил sent_tokenize для абзаца и смог извлечь предложение_токены. Затем мне нужно сохранить эти токены в виде списка списков, для которых я буду выполнять word_tokenize. У меня возникли проблемы при создании этого списка списков. Мой результат в настоящее время сохраняется в кадре данных pandas. Каков наилучший метод итерации, поскольку я должен сделать это для нескольких абзацев?
df['Body1'] = df['Body'].apply(sent_tokenize)
# this grabs the first sentence of the first paragraph
display(df["Body1"].iloc[0][0])
Ожидаемый результат для одного абзаца: [[Предложение 1], [Предложение 2], [Предложение n]]
Заранее спасибо за помощь!
РЕДАКТИРОВАТЬ: я дал этой проблеме немного больше думать.
Я попытался:
sents_list = df.Body.tolist() #df.Body is where my paragraphs are stored, one per row.
sents_list2 = [[i] for i in sents_list] # this embedded my paragraph into another list rather than the expected [[Sent1], [Sent2]] pattern.
Примечание: после выполнения sent_tokenize для моего абзаца, если я скажу sents_list [0] [0], он выводит первое предложение первого абзаца, как и ожидалось.
Любой совет приветствуется.