Question

Я работаю над проблемой классификации текста, я пытаюсь классифицировать набор слов по категориям, да, существует множество библиотек, доступных для классификации, поэтому, пожалуйста, не отвечайте, если вы предлагаете использовать их.

Позвольте мне объяснить, что я хочу реализовать. (возьмите для примера)

Список слов:

Java
программирование
язык
с острыми

Список категорий.

Java

здесь мы будем тренировать набор, как:

Java-карты для категории 1. Java
программирование карт для категории 1.java
программирование карт для категории 2.c-sharp
языковые карты для категории 1.java
языковые карты для категории 2.c-sharp
c-sharp карты категории 2.c-sharp

Теперь у нас есть фраза " Лучшая книга по Java-программированию " из данной фразы следующие слова соответствуют нашему «Списку слов»:

Java
программирование

«программирование» имеет две сопоставленные категории «java» и «c-sharp», поэтому это обычное слово.

«Java» отображается только в категорию «Java».

Таким образом, наша подходящая категория для фразы "java"

Это то, что мне пришло в голову, хорошо ли это решение, может ли оно быть реализовано, каковы ваши предложения, все, что я упускаю, недостатки и т. Д.

Fred Foo · Answer 1 · 15 ноября 2011

Конечно, это можно реализовать.Если вы обучаете наивный байесовский классификатор или линейный SVM в правильном наборе данных (я полагаю, названия книг по Java и C #), он должен научиться ассоциировать термин «Java» с Java, «C #» и «.NET» с C #и "программирование" с обоими.Т.е. наивный байесовский классификатор, скорее всего, узнает примерно равную вероятность Java или C # для общих терминов, таких как «программирование», если набор данных разделен равномерно.

bajafresh4life · Answer 2 · 15 ноября 2011

Простой способ реализовать это - использовать Lucene (или любой механизм индексации текста). Создайте один документ Lucene со всеми примерами "java" и другой документ с примерами "c #" и добавьте оба к индексу. Чтобы классифицировать новый документ, ИЛИ все термины в документе, выполнить запрос по индексу и получить категорию с наивысшим баллом.

Pawan Mishra · Answer 3 · 15 ноября 2011

Если возможно, прочитайте раздел «Наивный классификатор» в главе «Фильтрация документов» в книге «Программирование коллективного разума».Хотя примеры приведены на Python, я надеюсь, что это не доставит вам особых хлопот.

Классификация текста на категории

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Классификация текста на категории

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы