Как сгруппировать похожие категории? - PullRequest
1 голос
/ 09 мая 2019

У меня есть около 1200 категорий телешоу .., таких как Драма, Новости, Спорт, Спортивные события, Драма Медицина, Драма Преступления и т. Д.

Как мне использовать НЛП, чтобы я получал такие группы, чтоДрама, Драматическая медицина и Драматическая преступность объединяются, а Спорт, Спорт и другие группы объединяются и т. Д. В основном конечная цель - сократить 1200 категорий до очень немногих широких категорий.

До сих пор яиспользовал пакет слов для создания словаря из 146 слов ..

Ответы [ 2 ]

0 голосов
/ 09 мая 2019

Если вы ищете пакеты NLP, вы можете проверить несколько модулей, первый из которых:

SciKit-Learn

Он имеет целый ряд классов и упорядоченную и легко понятную документацию, но не использует нейронные сети для обработки текста. Также есть:

Инструментарий естественного языка

Он имеет заметное преимущество, будучи самым развитым и полноценным, но он довольно медленный.

Spacy

Это довольно быстро, но скорость достигается ценой не такой гибкости, как у других библиотек, которые я упомянул. Я полагаю, что он поддерживает 7 языков, но для начала этого может быть достаточно.

Тем не менее, для того, чего вы хотите достичь с помощью НЛП, вашим лучшим выбором может стать НЛТК. Существует замечательный учебный плейлист от sentdex . Удачи!

0 голосов
/ 09 мая 2019

Используйте предварительно обученную модель для генерации вложений, и оттуда вы можете кластеризовать внедрения, используя алгоритм кластеризации, такой как t-SNE или UMAP. Я рекомендую fasttext или spacy, при этом spacey является самым простым в использовании.

...