алгоритм слов в php - PullRequest
0 голосов
/ 28 января 2012

Я делаю свой последний проект в моих исследованиях.

и я пытаюсь создать анализ настроений в сообщениях Twitter.

Я использую байесовский алгоритм и пакет слов.

У вас есть пример алгоритма мешка слов в PHP?

Я ничего не могу найти, может быть, список положительных и отрицательных слов или что-то еще

Ответы [ 2 ]

3 голосов
/ 28 января 2012

"Мешок слов" - это , а не алгоритм .

Это просто означает, что вы рассматриваете текст как неупорядоченный мультисеть ("мешок")слова для вашего анализа;Вы не обращаете внимание на порядок слов, как в НЛП.Например, разреженные векторы с количеством слов.

0 голосов
/ 06 февраля 2012

Я не реализовал Bag of Words в PHP, но я сделал это в Java. Простой способ реализовать это - взять обучающие данные и токенизировать их (например, Stanford Tokenizer). После того, как вы токенизировали все свои тренировочные данные, вы можете извлечь из них 1 грамм. Я использую это http://homepages.inf.ed.ac.uk/lzhang10/ngram.html, чтобы извлечь граммы, а затем удалить количество слов из вывода и просто использовать слова. Это становится вашим набором слов, который можно использовать во время обучения и классификации. Убедитесь, что вы используете один и тот же токенизатор во время обучения, тестирования или классификации, а также используете тот же корпус во время обучения моделей.

Теперь реализовать это довольно просто, просто возьмите строку данных и токенизируйте ее, используя тот же токенизатор, который использовался для создания пакета слов. Теперь возьмите каждый жетон и выясните, есть ли этот жетон в вашем корпусе и в какой позиции. Например, у вас есть корпус, в котором есть слова: -

а

имя

The

привет

мир

И у вас есть строка "привет, меня зовут Джас". Использование токенизации дало бы следующие токены {hello ,,, my, name, is, Jas}, и при попытке сопоставить эти токены с корпусом ваш результат будет: -

2: 1 4: 1 6: 1

Это означает, что во входящей тестовой строке присутствуют слова name, hello и запятая, которые присутствуют в местах 2, 4 и 6 в вашем корпусе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...