NLTK TextTiling: оптимизировать токенизатор для создания превосходных абзацев - PullRequest
0 голосов
/ 10 октября 2018

В соответствии с этим вопросом Как разбить текст на абзацы с помощью NLTK nltk.tokenize.texttiling?

Я хочу сделать тот же процесс разделения электронной почты на разные компоненты

From: X
To: Y                             (LOGISTICS)
Date: 10/03/2017

Hello team,                       (INTRO)

Some text here representing
the body                          (BODY1)
of the text.

Some text here representing
the body                          (BODY2)
of the text.

Some text here representing
the body                          (BODY3)
of the text.

Regards,                          (OUTRO)
X

*****DISCLAIMER*****              (POST EMAIL DISCLAIMER)
THIS EMAIL IS CONFIDENTIAL
IF YOU ARE NOT THE INTENDED RECIPIENT PLEASE DELETE THIS EMAIL

В моем случае было бы несколько блоков / параграфов в (BODY) зоне самой почты.

Мне нужно убрать весь шум сверху и снизу и получить только (ТЕЛО) части почты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...