Я пытаюсь использовать Python + NLTK для выполнения сложной токенизации предложений в наборе статей giganti c. К сожалению, это относится к "и др." как конец предложения, а не как сокращение. Я подозреваю, что он сделает то же самое для других сокращений, таких как «eg» или «ie»
Я знаю, что могу добавить что-то вроде этого:
sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
extra_abbreviations = ['et al']
sentence_tokenizer._params.abbrev_types.update(extra_abbreviations)
Но я не Я не хочу вручную определять все возможные дополнительные сокращения, которые могут встретиться в наборе данных, и вводить их вручную. Кто-нибудь придумал более универсальное решение для этой конкретной проблемы, даже если это просто длинный список сокращений, которые можно загрузить из файла и передать в качестве параметра методу обновления?