Автоматическое отрицание слов - PullRequest
2 голосов
/ 12 февраля 2012

Рассмотрим следующие утверждения

We are not talking about a well established company in the NASDAQ
I will not initiate any trades until those clowns hammer out a deal

Я пишу простой наивный байесовский классификатор, в основном отмечая обучающий набор утверждений вручную (как положительное или отрицательное чувство) и сохраняя слова, которые составляют утверждение соответствующим образом.

Проблема: если я отмечу оба эти утверждения как имеющие негативное отношение, слова «хорошо», «установлено» (утверждение 1) и «любой», «до» (утверждение 2) будут индивидуально помечены как негативные. В то время как в другом случае (т. Е. «Эта компания работает хорошо»), те же слова (в данном случае «хорошо») были бы отмечены как положительные, что составляет сумму настроения для «хорошо» -1 + 1 = 0. Я бы преодолел это, пометив эти слова как слова с отрицанием, например:

We are talking about a not-well not-established company in the NASDAY.
I will initiate not-anymore trades not-until those clowns hammer out a deal

Существует ли стандартный или лучший способ пометки таких слов (я даже не знаю, относятся ли они к одной и той же группе слов)? Очевидно, что пометка «компания» не имеет смысла, «не компания» не имеет никакой сентиментальной ценности. Я (в PHP) создал функцию, которая помечала бы все слова после слова отрицания (нет, нет, не мог и т. Д.), Но многие из них впоследствии не имели реального смысла (например, «не компания», « not-NASDAQ "," not-clowns ").

Поскольку английский не является моим родным языком, я спрашиваю вас, есть ли общее название для слов, которые я здесь обозначил, и возможно ли то, что я хочу (элементарно). Я знаю, что возможны многие исключения (двойные отрицания и т. Д.), Но я не хочу вдаваться в подробности; Я верю, что если бы это было возможно, это охватило бы много вопросов.

1 Ответ

4 голосов
/ 12 февраля 2012

Исходя из вашего примера,

We are talking about a not-well not-established company in the NASDAY.
I will initiate not-anymore trades not-until those clowns hammer out a deal

Я думаю, вы хотите пометить прилагательных (и их варианты), чтобы они были отрицаны, верно?Это называется "частью речевого тегирования".Здесь есть хороший учебник по PHP .

Однако вам нужен словарь (или список слов) общих английских прилагательных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...