Лексикон «нежелательных» слов? - PullRequest
0 голосов
/ 05 июня 2019

Кто-нибудь знает лексику или словарь НЛП, которые можно использовать для поиска нежелательных слов в профессиональных документах? Например, оскорбительные или дискриминационные слова или сексуальные термины? Любые советы с благодарностью.

Ответы [ 2 ]

0 голосов
/ 06 июня 2019

Быстрый поиск показывает некоторые ресурсы, которые могут быть вам полезны:

https://www.cs.cmu.edu/~biglou/resources/

https://pypi.org/project/profanity/ (если вы пишете код на Python)

https://www.noswearing.com/dictionary (создайте свое собственное)

Вы также можете включить некоторые регулярные выражения (например, .*fuck.*, .*shit.*) для учета производительности и создания новых слов, которые могутне быть в тех лексиконах.Но будьте осторожны с этим, так как вы, вероятно, захотите не помечать другие слова как ненормативную лексику.

0 голосов
/ 06 июня 2019

Я не знаю об общем корпусе, но вы могли бы провести анализ настроений по конкретным словам и просто сказать «любое слово с отрицательным настроением хуже порога - это слово, которое я не хочу»

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...