Фон
В течение многих лет я использовал мои собственные байесовские методы для классификации новых предметов из внешних источников на основе большого и постоянно обновляемого набора обучающих данных.
Существует три типакатегоризации, выполненной для каждого элемента:
- 30 категорий, где каждый элемент должен принадлежать к одной категории, и не более двух категорий.
- 10 других категорий, где каждый элемент связан толькос категорией, если есть сильное совпадение, и каждый элемент может принадлежать к числу совпадающих категорий.
- 4 других категории, где каждый элемент должен принадлежать только одной категории, и если нет сильного совпадениясоответствует элемент назначен категории по умолчанию.
Каждый элемент состоит из английского текста около 2000 символов.В моем учебном наборе данных содержится около 265 000 элементов, которые содержат приблизительную оценку в 10 000 000 элементов (уникальные фразы из трех слов).
Мои методы домашнего приготовления были довольно успешными, но определенно имеют место для улучшения.Я прочитал главу книги NLTK «Обучение классификации текста», которая была великолепна и дала мне хороший обзор методов классификации НЛП.Я хотел бы иметь возможность экспериментировать с различными методами и параметрами, пока не получу наилучшие результаты классификации для моих данных.
Вопрос
Какие имеются готовые инструменты НЛПкоторые могут эффективно классифицировать такой большой набор данных?
Те, которые я пробовал до сих пор:
Iпопытался обучить их с помощью набора данных, который составлял менее 1% от доступных данных обучения: 1700 предметов, 375 000 функций.Для NLTK я использовал разреженный двоичный формат и такой же компактный формат для TIMBL.
Оба, похоже, делали все в памяти и быстро использовали всю системную память.Я могу заставить их работать с крошечными наборами данных, но ничего большого.Я подозреваю, что если бы я попытался постепенно добавлять данные обучения, то та же проблема возникла бы либо тогда, либо при реальной классификации.
Я смотрел на Google Prediction API, который, кажется, делает большую часть того, что яищу но не все.Я также хотел бы не полагаться на внешнюю службу, если это возможно.
О выборе функций: при тестировании с использованием моих доморощенных методов в течение многих лет три словосочетания дали далеко не лучшие результаты.Хотя я мог бы уменьшить количество функций, используя слова или словосочетания, это, скорее всего, привело бы к худшим результатам и по-прежнему было бы большим количеством функций.