Как узнать, к какой категории относится предложение только с заголовком? - PullRequest
2 голосов
/ 26 мая 2011

Я разрабатываю новый сервис, который будет запрашивать несколько предложений (Groupon и т. Д.), И я хотел бы выяснить, к какой категории относится это предложение.

Пример:

Я получаю это название: «Acqualina Wellness Expo - Acqualina Resort & Spa», и мне нужно выяснить, к какой категории относится это предложение.

Я пытаюсь играть с http://www.google.com/insights/search/, но это нелегко, потому что он получает только 7 параметров (терминов), и иногда у нас есть составные слова, которые не могут быть разделены.

1 Ответ

1 голос
/ 27 мая 2011

Существуют забавные методы, основанные на Wordnet и расстоянии поиска, и тому подобное, но стандартным способом был бы подход байесовского фильтра спама.

Шаг 1 : Создайте пример набора заголовков (или заголовок и тело) и к какой категории вы относитесь. Чем больше и разнообразнее вы делаете этот набор, тем лучше. Вам нужно иметь много (скажем, по крайней мере двузначных чисел, но предпочтительно сотен) разных примеров из каждой категории, которую вы хотите распознать. Если вам нужна помощь в создании этого набора, вы можете использовать Amazon Mechanical Turk и платить другим людям за выполнение классификации.

Шаг 2 : Запустите все ваши примеры по CRM114 (http://crm114.sourceforge.net/) или что-то подобное. Если вы хотите использовать облачный сервис, я думаю, что Google Prediction API допускает текстовые поля.

Шаг 3 : Для тестирования не позволяйте классификатору видеть все примеры. Сохраните некоторые в так называемом наборе вне выборки, на котором вы можете проверить свой классификатор. Ему гораздо проще классифицировать вещи, которые он уже видел, поэтому вы должны убедиться, что знаете, насколько это хорошо, на невидимых примерах. Некоторые классификаторы будут делать этот тест для вас автоматически.

Удачи!

...