Твик NLTK, предложение токенизатора, резервное предложение в скобках - PullRequest
1 голос
/ 04 ноября 2019

У меня есть предложение, в котором я не хочу разбивать его на квадратные скобки, есть идеи?

Примеры:

Сегодня понедельник. [Деньги могут купить это и это. Но она не может купить любовь.]

текущий выход:

Сегодня понедельник.

[Деньги могут купить это и это.

Но он не может купить любовь.]

ожидаемый результат:

Сегодня понедельник.

[Деньги могут быть этим иэто. Но это не может купить любовь.]

1 Ответ

0 голосов
/ 06 ноября 2019

Вам нужна предварительная обработка ваших входных данных. используйте функцию split () для разделения при открытии и закрытии скобок. Таким образом, вы можете индексировать элементы, являясь «обычными» предложениями и предложениями, заключенными в квадратные скобки поочередно. тогда вы можете решить, что будет разделено, а что нет. Затем присоединитесь к элементам и восстановите скобки, если они вам нужны.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...