Пока у меня есть текстовый файл, созданный 6 книгами Шекспира, и я собираюсь удалить стоп-слова на основе подготовленного списка стоп-слов .
Во-первых, я создаю пустой текстфайл и дублировать содержимое исходного текста в нижнем регистре в новый файл (потому что список стоп-слов состоит из строчных слов).
$cat new_txt.txt | tr [A-Z] [a-z] > new_txt_lowercase.txt
Затем я использую код ниже, чтобы стереть стоп-слова в стоп-словсписок:
$ grep -wvf 99webtools.txt new_txt_lowercase.txt>new_txt_no_stopwords.txt
$ grep -v -f 99webtools.txt new_txt_lowercase.txt>new_txt_no_stopwords.txt
Но ни один из них не работает.
Есть идеи?что-то не так с моим кодом?