Question

Я запустил sent_tokenize для абзаца и смог извлечь предложение_токены. Затем мне нужно сохранить эти токены в виде списка списков, для которых я буду выполнять word_tokenize. У меня возникли проблемы при создании этого списка списков. Мой результат в настоящее время сохраняется в кадре данных pandas. Каков наилучший метод итерации, поскольку я должен сделать это для нескольких абзацев?

df['Body1'] = df['Body'].apply(sent_tokenize) 

# this grabs the first sentence of the first paragraph
display(df["Body1"].iloc[0][0])

Ожидаемый результат для одного абзаца: [[Предложение 1], [Предложение 2], [Предложение n]]

Заранее спасибо за помощь!

РЕДАКТИРОВАТЬ: я дал этой проблеме немного больше думать.

Я попытался:

sents_list = df.Body.tolist() #df.Body is where my paragraphs are stored, one per row.

sents_list2 = [[i] for i in sents_list] # this embedded my paragraph into another list rather than the expected [[Sent1], [Sent2]] pattern.

Примечание: после выполнения sent_tokenize для моего абзаца, если я скажу sents_list [0] [0], он выводит первое предложение первого абзаца, как и ожидалось.

Любой совет приветствуется.

Как преобразовать результат sent_tokenizer в список списков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как преобразовать результат sent_tokenizer в список списков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы