Эффективно обнаруживать ненормативную лексику в текстовом сообщении, используя PHP и таблицу MySQL, содержащую большой список плохих слов - PullRequest
0 голосов
/ 06 января 2012

У меня есть таблица mysql, содержащая большой список (около 5000 слов) многоязычных плохих слов. Мне нужно найти эффективный способ отфильтровать профанные слова в текстовых сообщениях, созданных пользователями. Использование php regex кажется мне неуместным, так как список плохих слов большой.

Кроме того, разделение сообщения на слова и последующий запрос к каждому слову - это ужасное решение для сайтов с высоким трафиком, когда пользователи публикуют большие сообщения. Мне нужно оптимизированное решение, так как многие пользователи будут использовать этот сервис одновременно.

Есть предложения? Или, если вы думаете, что регулярное выражение подходит, то можете ли вы объяснить целесообразность с точки зрения использования процессора / памяти и времени выполнения?

...