Кто-нибудь знает лексику или словарь НЛП, которые можно использовать для поиска нежелательных слов в профессиональных документах? Например, оскорбительные или дискриминационные слова или сексуальные термины? Любые советы с благодарностью.
Быстрый поиск показывает некоторые ресурсы, которые могут быть вам полезны:
https://www.cs.cmu.edu/~biglou/resources/
https://pypi.org/project/profanity/ (если вы пишете код на Python)
https://www.noswearing.com/dictionary (создайте свое собственное)
Вы также можете включить некоторые регулярные выражения (например, .*fuck.*, .*shit.*) для учета производительности и создания новых слов, которые могутне быть в тех лексиконах.Но будьте осторожны с этим, так как вы, вероятно, захотите не помечать другие слова как ненормативную лексику.
.*fuck.*
.*shit.*
Я не знаю об общем корпусе, но вы могли бы провести анализ настроений по конкретным словам и просто сказать «любое слово с отрицательным настроением хуже порога - это слово, которое я не хочу»