Токенизаторы на основе Python для языков, отличных от английского sh - PullRequest
0 голосов
/ 08 мая 2020

В настоящее время мы создаем текстовые модели с использованием библиотеки scikit learn в Python. Scikit learn по умолчанию поддерживает токенизацию для Engli sh laungauge. Мы также хотим добавить поддержку неанглийских sh языков (испанский sh, французский, немецкий, итальянский, японский, тюркский sh). Я ищу библиотеку python, поддерживающую указанные выше языки. Я наткнулся на SpaCy и NLTK, но я ищу, есть ли какие-либо другие библиотеки python, и есть ли сравнительная таблица с точки зрения тестирования, использования памяти, точности, поддержки нескольких языков, стабильности и поддержки сообщества. Я нашел это https://spacy.io/usage/facts-figures, но мне интересно, проводил ли кто-нибудь исследования и по другим python библиотекам и имел аналогичную сравнительную таблицу, чтобы помочь мне выбрать правильную библиотеку для моей работы.

1 Ответ

0 голосов
/ 04 июля 2020

Попробуйте следующие. Они должны поддерживать немецкий, французский и т. Д. c.

https://pypi.org/project/sacremoses/

https://pypi.org/project/mosestokenizer/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...