Я работаю над проблемой классификации текста, я пытаюсь классифицировать набор слов по категориям, да, существует множество библиотек, доступных для классификации, поэтому, пожалуйста, не отвечайте, если вы предлагаете использовать их.
Позвольте мне объяснить, что я хочу реализовать. (возьмите для примера)
Список слов:
- Java
- программирование
- язык
- с острыми
Список категорий.
- Java
здесь мы будем тренировать набор, как:
- Java-карты для категории 1. Java
- программирование карт для категории 1.java
- программирование карт для категории 2.c-sharp
- языковые карты для категории 1.java
- языковые карты для категории 2.c-sharp
- c-sharp карты категории 2.c-sharp
Теперь у нас есть фраза " Лучшая книга по Java-программированию "
из данной фразы следующие слова соответствуют нашему «Списку слов»:
- Java
- программирование
«программирование» имеет две сопоставленные категории «java» и «c-sharp», поэтому это обычное слово.
«Java» отображается только в категорию «Java».
Таким образом, наша подходящая категория для фразы "java"
Это то, что мне пришло в голову, хорошо ли это решение, может ли оно быть реализовано, каковы ваши предложения, все, что я упускаю, недостатки и т. Д.