классификация с использованием lingpipe - PullRequest
4 голосов
/ 18 мая 2011

В рамках своего научного исследовательского проекта я пытаюсь создать приложение, в котором у меня будет набор URL, извлеченных из Интернета. Задача состоит в том, чтобы классифицировать каждый из этих URL-адресов в какую-то категорию.

Для экземпляра следующий URL относится к крикету http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html Если я дам этот конкретный URL-адрес классификатору, он должен указать в качестве выходной категории «Спорт».

Для этого я использую классификатор lingpipe. Я следовал учебному пособию по классификации и запустил демонстрационный подарок в папке демо. Я скачал 20 новостей, загруженных по следующей ссылке. http://people.csail.mit.edu/people/jrennie/20Newsgroups

Позже я уменьшил размер тренировочной выборки с 20 до 8 и запустил демоверсию классификации. Он может успешно обучать данные и также может проверять данные.

Но дело в том, нужно ли обучать классификатор каждый раз, когда я хочу проверить категорию документов? Если я запускаю классификацию документов, то на обучение и тестирование данных уходит 4 минуты.

Могу ли я сохранить обученные данные один раз и выполнить классификацию несколько раз?

1 Ответ

4 голосов
/ 27 мая 2011

Вам нужно сериализовать обученные модели на диск, а затем вы можете десериализовать их и подготовить классификатор к работе.

После того, как вы освоите классификатор, используйте

 AbstractExternalizable.compileTo(classifier,modelFile);

Для записи модели на диск.

Для чтения вам понадобится

AbstractExternalizable.readObject(modelFile);

Посмотрите на документ Java для AbstractExternalizable.

Модель не сможет принимать дополнительные обучающие мероприятия, поскольку она была скомпилирована.

...