Question

У меня проблемы с функцией nltk.sent_tokenize.

Мой текст (который я хочу токенизировать) состоит из 54116 предложений, разделенных точкой. Я удалил другие знаки препинания. Я хотел бы токенизировать свой текст на уровне предложения, используя nltk.sent_tokenize.

Однако, если я применю tokenized_text = sent_tokenize(mytext), длина tokenized_text составит всего 51582 вместо 54116.

Есть идеи, почему это могло произойти?

С уважением

sks · Answer 1 · 06 августа 2020

Обычно это происходит из-за того, что модель определения границ предложения не может правильно определить все границы предложения - обычно ограничивается точностью, которая составляет порядка 97% -99%. Тем не менее, поскольку вы утверждаете, что в корпусе есть предложения, строго разделенные «точкой», вы можете просто разделить его на «.», При условии, что нет таких сокращений, как Prof., Dr. или Sr. et c. Вы можете обратиться к https://www.aclweb.org/anthology/C12-2096.pdf для получения дополнительной информации.

количество токенизированных предложений не соответствует количеству предложений в тексте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

количество токенизированных предложений не соответствует количеству предложений в тексте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы