Обработка естественного языка: Находите матом на английском? - PullRequest
6 голосов
/ 02 декабря 2009

Учитывая набор слов, помеченных для части речи, я хочу найти те, которые являются матом в основном английском языке. Как я могу это сделать? Должен ли я просто сделать огромный список и проверить наличие чего-либо в списке? Должен ли я попытаться использовать регулярное выражение для захвата множества вариантов в одном корне?

Если это облегчит задачу, я не хочу отфильтровывать, просто чтобы подсчитать. Так что, если есть некоторые ложные срабатывания, это не конец света, пока есть более или менее равномерно завышенный показатель.

Ответы [ 11 ]

0 голосов
/ 02 декабря 2009

Это зависит от того, какой у вас текстовый источник, но я бы выбрал какой-то установленный и проверенный алгоритм сопоставления с образцом, например, с использованием Trie .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...