Разделить предложения в python с цитатами - PullRequest
0 голосов
/ 19 января 2020

Я пытаюсь отделить предложения от академических работ c. Традиционно разделение предложений будет просто:

sentence = 'This is a sentence. This is another sentence'
separate = sentence.split('.')

#  [ This is a sentence, This is another sentence ]

Однако этот лог c не работает, если у вас есть предложения, такие как:

This is a sentence is a paper with a citation (author et al., 2020a) and it contains more 
information. This is similar to the examples I have (author et al., 2020a).

Как можно разделить предложения (например, пример выше), поэтому результат будет выглядеть примерно так:

['This is a sentence is a paper with a citation (author et al., 2020a) and it contains more information' , 'This is similar to the examples I have (author et al., 2020a)' ]

Какое простое решение этой проблемы? Ценю предложения.

1 Ответ

1 голос
/ 19 января 2020

Простым решением было бы разделить на "\. (?>[A-Z])" (верхний регистр точек):

sentences = values.split(r"\. (?>[A-Z])") # split nicely in the 2 sentences
sentences = values.split(r"\. ") # more basic and generic

Более мощным является использование выделенной библиотеки, например nltk: Python разбить текст на предложения

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...