Если у вас есть файл стоп-слов / tmp / words:
in
the
, вы можете создать из него программу sed:
sed 's|^|s/\\<|; s|$|\\>/[CENSORED]/g;|' /tmp/words > /tmp/words.sed
таким образом вы получите / tmp / words.sed:
s/\<in\>/[CENSORED]/g;
s/\<the\>/[CENSORED]/g;
и затем использовать его для цензуры любого текстового файла:
sed -e -f /tmp/words.sed /input/file/to/filter.txt > /censored/output.txt
-e
необходим для sed, чтобы понять расширенное регулярное выражение, необходимое для распознавания.Конечно, вы можете изменить [censored]
на любую другую строку или пустую строку, если хотите.
Это решение будет обрабатывать много слов в строке, а также одно слово в строке файлов.