У меня есть фрагмент кода, который должен сказать мне, сколько раз слово встречается в файле CSV.Примечание: файл довольно большой (2 года текстовых сообщений). Это мой код:
key_word1 = 'Exmple_word1'
key_word2 = 'Example_word2'
counter = 0
with open('PATH_TO_FILE.csv',encoding='UTF-8') as a:
for line in a:
if (key_word1 or key_word2) in line:
counter = counter + 1
print(counter)
Есть два слова, потому что я не знал, как сделать его без учета регистра.Чтобы проверить это, я использовал функцию поиска в слове по всему файлу (используя только одно из слов, так как там я мог выполнять поиск без учета регистра) и получил более чем вдвое больше, чем рассчитал мой код.
Сначала я использовал функцию value_counts()
, но я получил разные значения для одного и того же слова (поиск Exmple_word1
появлялся 32 и 56 раз и 2 раза и т. Д. Я как бы застрял там на некоторое время, ноэто заставило меня задуматься. Я использую две клавиатуры на своем телефоне, которые я регулярно меняю - может ли быть так, что одни и те же слова на самом деле могут отличаться, и это объясняет, почему я получаю эти результаты?
Кроме того, я в значительной степенипроверил все источники по этому вопросу, и я нашел разные подходы, которые на самом деле не делали то, что я от них хочу (например, метод value_counts()
)
Если это так, как я могу это исправить?