Как выбрать алгоритм выбора функции?- совет - PullRequest
7 голосов
/ 14 января 2010

Есть ли исследовательская статья / книга, которую я могу прочитать, которая может сказать мне о проблеме, о которой идет речь, какой алгоритм выбора функции будет работать лучше всего.

Я пытаюсь просто идентифицировать твиттер-сообщения как pos / neg (для начала). Я начал с выбора функций на основе частот (начав с книги NLTK), но вскоре понял, что для аналогичной проблемы разные люди выбрали разные алгоритмы

Хотя я могу попробовать частотную, взаимную информацию, получение информации и другие алгоритмы, список кажется бесконечным ... и мне было интересно, если есть эффективный способ, то проб и ошибок.

любой совет

Ответы [ 3 ]

6 голосов
/ 15 января 2010

Вы пробовали книгу, которую я рекомендовал на ваш последний вопрос? Он находится в свободном доступе в Интернете и полностью посвящен задаче, с которой вы сталкиваетесь: Анализ настроений и анализ мнений Пэнг и Ли. Глава 4 («Извлечение и классификация») именно то, что вам нужно!

4 голосов
/ 14 января 2010

Я прошел курс НЛП в последний семестр, и стало ясно, что анализ настроений - это то, что никто не знает, как хорошо (пока). Делать это с обучением без учителя, конечно, еще сложнее.

В настоящее время проводится довольно много исследований в этой области, некоторые из них являются коммерческими и, следовательно, не доступны для общественности. Я не могу указать вам какие-либо исследовательские работы, но книга, которую мы использовали для курса, была эта ( просмотр книг Google ). Тем не менее, книга охватывает много материала и, возможно, не самый быстрый способ найти решение этой конкретной проблемы.

Единственное, на что я могу обратить ваше внимание, это попытаться погуглить, может быть, на сайте scholar.google.com для «анализа настроений» или «анализа мнений».

Взгляните на корпус NLTK movie_reviews. Обзоры уже положены в категорию и могут помочь вам в обучении вашего классификатора. Хотя язык, который вы найдете в Твиттере, вероятно, сильно отличается от этого.

В качестве последней заметки, пожалуйста, опубликуйте любые успехи (или неудачи в этом отношении) здесь. Эта проблема наверняка появится позже.

1 голос
/ 15 января 2010

К сожалению, при работе с машинным обучением нет никакой серебряной пули.Обычно ее называют теоремой «Нет бесплатного обеда» .В основном, несколько алгоритмов работают на проблему, и некоторые справляются с одними проблемами лучше, а другие хуже.В целом, они все выполняют примерно одинаково.Один и тот же набор функций может привести к тому, что один алгоритм будет работать лучше, а другой - хуже для данного набора данных.Для другого набора данных ситуация может быть полностью изменена.

Обычно я выбираю несколько алгоритмов выбора функций, которые сработали для других в аналогичных задачах, а затем начинаем с них.Если производительность, которую я получаю, используя мои любимые классификаторы, является приемлемой, то поиск еще полпроцента, вероятно, не стоит моего времени.Но если это неприемлемо, тогда пришло время пересмотреть мой подход или поискать другие методы выбора функций.

...