Трудно найти хорошие списки и настроить их. Также звучит так, как будто вы выполняете много ручной работы, которая может быть автоматизирована (то есть спряжение). Я сделал много для фильтра ненормативной лексики моей компании под названием CleanSpeak , и большая часть этого может быть автоматизирована с использованием идентификаторов POS для слов, и во многих случаях вы можете вручную делать пометки POS или находить источник POS.
Вам также необходимо учитывать качество списков, а также содержание и управление фильтром. Многие люди думают, что это просто, а затем понимают, что чрезвычайно трудно предотвратить ложные срабатывания.
Все это говорит о том, что мы обнаружили, что большинство наших списков для других языков трудно найти в Интернете, и в итоге мы заплатили за то, что многие из них были построены или приобретены у других компаний. Списки, которые мы нашли в Интернете, оказались почти бесполезными после того, как мы их перевели. Мы также попытались убрать черный список и перевести его, что было полным провалом, потому что большинство ненормативной лексики английского языка не имеют эквивалентов в других языках. Я бы предложил приобрести списки или поработать со студентами в вашем местном университете для создания списков. Многие наши клиенты сочли этот метод относительно хорошим и не слишком дорогим.
Я бы также посоветовал вам взглянуть на некоторые ресурсы, которые определяют наилучшие способы управления пользовательским контентом. Они помогут вам при принятии решения о сборке и покупке.