Как лучше всего реализовать обработчик нецензурных слов (предпочтительно .NET)? - PullRequest
1 голос
/ 18 ноября 2008

Для приложения ASP.NET, каков метод реализации Best Practice для пользовательского удаления / замены ругательства?

Если это решение для таблицы данных, есть ли бесплатный ресурс для получения данных? (Аналогично поиску таблицы общедоступного словаря, которую вы можете импортировать в свою систему для проверки орфографии)

Ответы [ 3 ]

6 голосов
/ 18 ноября 2008

Единственный способ выиграть - не играть.

Рассмотрим следующее предложение:

«Эдвард II был одним из немногих монархов, которые родили зарегистрированного ублюдка».

Ублюдок - ругательство на границе, но в этом контексте это вполне разумный термин.

Рассмотрим также:

  • "Расплавленный шлак выпал из cruciable. "
  • "Сука понюхала заднюю сторону другой собаки."

Вы никогда не сможете создать синтаксический анализатор, способный определить правильность использования. Даже если вы все равно решили пойти дальше и просто отметить эти слова, они все равно легко подрываются.

Спросите себя, действительно ли "Tw * t" намного менее оскорбительно, чем "twat"? Все знают, на какое слово вы указываете, и все понимают, что оно означает.

В конечном счете, решение этой проблемы не является технологическим. На самом деле, вы хотите использовать какого-то человека-модератора, чтобы избавиться от людей, которые ругаются. У человека, умеренного, есть средство, которого алгоритмы никогда не будут: он может проявить суждение. Используя это суждение, гораздо полезнее, чем бросать компьютерную науку на проблему.

Это подробно обсуждается в другом ответе на этот вопрос.

2 голосов
/ 18 ноября 2008

Что мы (*) сделали, так это создали двухуровневый список «плохих слов» (с помощью регулярных выражений, надеемся, поймать некоторые варианты). При использовании слова уровня 1 вы получите предупреждение о том, что вы нарушаете Условия обслуживания, и вы не можете сохранить это сообщение, пока не исправите его. Если вы используете слово уровня 2, сообщение публикуется, но против него автоматически подается возражение. Все сообщения с пометкой о возражении (сгенерированные системой или пользователем) проверяются человеком, который определил, остается оно или уходит.

(*) «Мы» - это подразделение электронной коммерции крупного, надежного магазина розничной торговли, который только что начал размещать на своем веб-сайте пользовательский контент.

...