Question

Я пытаюсь обучить наивного байесовского классификатора положительными / отрицательными словами, извлеченными из настроения. пример:

Мне нравится этот фильм :))

ненавижу когда идет дождь :(

Идея в том, что я извлекаю положительные или отрицательные предложения на основе использованных эмоций, но для того, чтобы обучить классификатор и сохранить его в базе данных.

Проблема в том, что у меня есть более 1 миллиона таких предложений, поэтому, если я буду тренировать их слово в слово, база данных пойдет на бросок. Я хочу удалить все не относящиеся к делу слова, например, «I», «this», «when», «it», чтобы количество запросов к базе данных уменьшалось.

Пожалуйста, помогите мне в решении этой проблемы, чтобы предложить мне лучшие способы сделать это

Спасибо

Fred Foo · Answer 1 · 24 ноября 2010

Существует два распространенных подхода:

Скомпилируйте список остановок .
POS-тег предложения и отбросьте те части речи, которые, по вашему мнению, не интересны.

В обоих случаях определение того, какие слова / POS-теги являются релевантными, может быть выполнено с использованием меры, такой как PMI .

Имейте в виду: стандартные стоп-листы из поиска информации могут или не могут работать в анализе настроений. Я недавно прочитал газету (без ссылки, извините), где это было заявлено! и?, которые обычно удаляются в поисковых системах, являются ценными подсказками для анализа настроений. (Так может и «я», особенно если у вас также есть нейтральная категория.)

Редактировать : вы также можете безопасно выбросить все, что происходит только один раз в тренировочном наборе (так называемые hapax legomena ). Слова, которые встречаются однажды, имеют небольшую информационную ценность для вашего классификатора, но могут занимать много места.

Sap · Answer 2 · 30 ноября 2010

Вы можете проверить это http://books.google.com/books?id=CE1QzecoVf4C&lpg=PA390&ots=OHuYwLRhag&dq=sentiment%20%20mining%20for%20fortune%20500&pg=PA379#v=onepage&q=sentiment%20%20mining%20for%20fortune%20500&f=false

Skarab · Answer 3 · 24 ноября 2010

Чтобы уменьшить объем данных, извлекаемых из вашей базы данных, вы можете создать в своей базе данных словарь - таблицу, которая отображает слова * в числа ** - и затем получить только вектор чисел для обучения и полное предложение для руководства отмечая настроение.

| * Никаких научных публикаций мне не приходит в голову, но, может быть, достаточно использовать только основы или леммы вместо слов. Это уменьшит размер словаря.

| ** Если эта операция убивает вашу базу данных, вы можете создать словарь в локальном приложении, которое использует механизм индексирования текста (например, apache lucene), и сохранить только результат в вашей базе данных.

1 миллион предложений для сохранения в БД - удаление неактуальных английских слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

1 миллион предложений для сохранения в БД - удаление неактуальных английских слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы