Gensim Ключевые слова, как загрузить немецкую модель? - PullRequest
0 голосов
/ 21 октября 2018

Я пытаюсь начать работу с библиотекой gensim.Моя цель довольно проста.Я хочу использовать извлечение ключевых слов, предоставленное gensim для немецкого текста.К сожалению, я терплю неудачу.

Gensim поставляется со встроенным извлечением ключевых слов, он построен на TextRank.Хотя результаты на английском тексте выглядят хорошо, на немецком они не работают.Я просто установил gensim через pypi и использовал его из коробки.Ну, такие продукты ИИ обычно управляются моделью.Я думаю, что Gensim поставляется с английской моделью.Модель word2vec для немецкого языка доступна на странице github .

Но здесь я застрял, я не могу найти способ, как модуль суммирования gensim, который обеспечивает функция ключевых слов я ищу, могу работать с внешней моделью.

Итак, основной вопрос: как загрузить немецкую модель и получить ключевые слова из немецкого текста?

Спасибо

1 Ответ

0 голосов
/ 21 октября 2018

Нет ничего в gensim документах или оригинальной статье TextRank (от 2004 г.), предполагающей, что для алгоритма требуется модель Word2Vec в качестве входных данных.(Word2Vec был впервые опубликован около 2013 года.) Он просто принимает токены.

См. Примеры его использования в учебном пособии, которое включено в gensim:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/summarization_tutorial.ipynb

Я не уверен, что тот же алгоритм будет работать наНемецкий текст, учитывая различную важность составных слов.(На мой взгляд, TextRank не очень впечатляет и с английским.) Вам придется проверить литературу, чтобы убедиться, что она все еще дает достойные результаты.(Возможно, поможет какой-то дополнительный термин / интра-токенизация / канонизация.)

...