Question

В настоящее время мы создаем текстовые модели с использованием библиотеки scikit learn в Python. Scikit learn по умолчанию поддерживает токенизацию для Engli sh laungauge. Мы также хотим добавить поддержку неанглийских sh языков (испанский sh, французский, немецкий, итальянский, японский, тюркский sh). Я ищу библиотеку python, поддерживающую указанные выше языки. Я наткнулся на SpaCy и NLTK, но я ищу, есть ли какие-либо другие библиотеки python, и есть ли сравнительная таблица с точки зрения тестирования, использования памяти, точности, поддержки нескольких языков, стабильности и поддержки сообщества. Я нашел это https://spacy.io/usage/facts-figures, но мне интересно, проводил ли кто-нибудь исследования и по другим python библиотекам и имел аналогичную сравнительную таблицу, чтобы помочь мне выбрать правильную библиотеку для моей работы.

Raghvendra · Answer 1 · 04 июля 2020

Попробуйте следующие. Они должны поддерживать немецкий, французский и т. Д. c.

https://pypi.org/project/sacremoses/

https://pypi.org/project/mosestokenizer/

Токенизаторы на основе Python для языков, отличных от английского sh

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Токенизаторы на основе Python для языков, отличных от английского sh

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы