Подсчет предложений с использованием NLTK (5400) и Spacy (5300) дает разные ответы. Нужно знать почему? - PullRequest
0 голосов
/ 09 мая 2020

Я новичок в НЛП. Использование Spacy и NLTK для подсчета предложений из файла JSON, но есть большая разница в обоих ответах. Я думал, что ответы будут такие же. Кто-нибудь может мне это сказать ?? или любая веб-ссылка, которая поможет мне в этом. Пожалуйста, я запуталась здесь

1 Ответ

1 голос
/ 09 мая 2020

Сегментация и токенизация предложений - это подзадачи NLP, и каждая библиотека NLP может иметь разные реализации, что приводит к разным профилям ошибок.

Даже внутри библиотеки spaCy есть разные подходы: наилучшие результаты достигаются при использовании анализатор зависимостей, но также существует более простой компонент sentencizer на основе правил, который работает быстрее, но обычно делает больше ошибок (документы здесь ).

Потому что никакая реализация не будет идеальной на 100% , вы получите расхождения между разными методами и разными библиотеками. Что вы можете сделать, так это распечатать случаи, в которых методы не совпадают, проверить их вручную и почувствовать, какой из подходов лучше всего подходит для вашей специфической c области и типа текстов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...