Объект spaCy Doc
также позволяет перебирать doc.sents
, которые являются Span
объектами отдельного предложения.Чтобы получить начальный и конечный индекс диапазона в родительском документе, вы можете посмотреть атрибуты start
и end
.Поэтому, если вы перебираете предложения и вычитаете начальный индекс предложения из token.i
, вы получаете относительный индекс токена в предложении:
for sent in doc.sents:
for token in sent:
print(token.text, token.i - sent.start)
Сегментация предложений по умолчанию использует анализ зависимостей, который обычноболее точным.Однако вы также можете подключить основанное на правилах или полностью настраиваемое решение ( подробности см. Здесь ).