Я дал короткую программу на python 3.7, используя NLTK. Его цель - найти самые длинные предложения в некоторых текстах (и сравнить). Таким образом, я нашел значения для самых коротких, средних и самых длинных предложений (то есть количества слов), но моя программа фактически не определяет, какие самые длинные предложения. Я использую диктовку, чтобы сделать это. Думаю, моя цель - перевернуть словарь, чтобы получить самые длинные предложения. Например, я знаю, что самое длинное предложение в одном тесте - 781 слово. Могу ли я узнать, какое предложение это длинное от слова? Или, еще лучше, все предложения, скажем, 250 слов? Спасибо всем, кто может помочь!
tokens = word_tokenize(raw1)
type(tokens)
tokened_sent = sent_tokenize(raw1)
main_dict = {}
for item in tokened_sent:
item1 = list(item.split(" "))
item2 = [' '.join(item1)]
Length = []
Length.append(len(item1))
mydict = dict(zip(item2, Length))
main_dict.update(mydict)
print("Stats for 'Crime and Punishment'")
print('number of words in text: ',len(raw1))
print('Maximum Value of words/sentence: ', max(main_dict.values()))
print('Minimum Value of words/sentence: ', min(main_dict.values()))
print('average Value of words/sentence: ', mean(main_dict.values()))
print("")