Я новичок в кодировании и пытаюсь создать словарь из большого объема текста, а также хотел бы, чтобы наиболее частое слово отображалось?
Например, если у меня был блок текстатакие как:
text = '' 'Джордж Гордон Ноэль Байрон родился с правой ногой с косой ногой в Лондоне 22 января 1788 года. Он был сыном Екатерины Гордон Гейт, обедневшейНаследница шотландцев и капитан Джон («Безумный Джек») Байрон, вдовец, охотящийся за богатством, с дочерью Августой.Блудный капитан растратил наследство своей жены, отсутствовал по причине рождения единственного сына и в конце концов сбежал во Францию как изгнание от английских кредиторов, где он умер в 1791 году в возрасте 36 лет. '' '
Я знаю шаги, которые хотел бы сделать код.Я хочу, чтобы слова, которые были одинаковыми, но с заглавной буквы, были посчитаны вместе, поэтому Hi и hi будут считаться как Hi = 2.
Я пытаюсь получить код для циклического просмотра текста и создания словаря, показывающего, сколько разкаждое слово появляется.Моя конечная цель - чтобы они имели кодовое состояние, какое слово встречается чаще всего.
Я не знаю, как приблизиться к такому большому количеству текста, примеры, которые я видел, относятся к гораздо меньшему количеству слов.
Я пытался удалить пробелы, а такжесоздать цикл, но я застрял и не уверен, правильно ли я решаю эту проблему.
a.replace(" ", "")
#this gave built-in method replace of str object at 0x000001A49AD8DAE0>, I have now idea what this means!
print(a.replace) # this is what I tried to write to remove white spaces
Я не уверен, как создать словарь.
Подсчитать словочастота я бы сделал что-то вроде:
frequency = {}
for value in my_dict.values() :
if value in frequency :
frequency[value] = frequency[value] + 1
else :
frequency[value] = 1
То, что я ожидал получить, был словарь, который перечисляет каждое слово, отображаемое с числовым значением, показывающим, как часто оно появляется в тексте.
Тогда я хотел, чтобы код показывал слово, которое встречается чаще всего.