Question

Я новичок в НЛП. Использование Spacy и NLTK для подсчета предложений из файла JSON, но есть большая разница в обоих ответах. Я думал, что ответы будут такие же. Кто-нибудь может мне это сказать ?? или любая веб-ссылка, которая поможет мне в этом. Пожалуйста, я запуталась здесь

Sofie VL · Answer 1 · 09 мая 2020

Сегментация и токенизация предложений - это подзадачи NLP, и каждая библиотека NLP может иметь разные реализации, что приводит к разным профилям ошибок.

Даже внутри библиотеки spaCy есть разные подходы: наилучшие результаты достигаются при использовании анализатор зависимостей, но также существует более простой компонент sentencizer на основе правил, который работает быстрее, но обычно делает больше ошибок (документы здесь ).

Потому что никакая реализация не будет идеальной на 100% , вы получите расхождения между разными методами и разными библиотеками. Что вы можете сделать, так это распечатать случаи, в которых методы не совпадают, проверить их вручную и почувствовать, какой из подходов лучше всего подходит для вашей специфической c области и типа текстов.

Подсчет предложений с использованием NLTK (5400) и Spacy (5300) дает разные ответы. Нужно знать почему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подсчет предложений с использованием NLTK (5400) и Spacy (5300) дает разные ответы. Нужно знать почему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы