Я пишу сценарий, который берет URL-адрес веб-сайта и загружает его, используя красивый суп.Затем он использует gensim.summarization для суммирования текста, но я продолжаю получать ValueError («вход должен иметь более одного предложения»), даже если текст содержит более одного предложения.Работает первый раздел скрипта, который загружает текст, но я не могу получить вторую часть для суммирования текста.
import bs4 as bs
import urllib.request
from gensim.summarization import summarize
from gensim.summarization.textcleaner import split_sentences
#===========================================
print("(Insert URL)")
url = input()
sauce = urllib.request.urlopen(url).read()
soup = bs.BeautifulSoup(sauce,'lxml')
#===========================================
print(soup.title.string)
with open (soup.title.string + '.txt', 'wb') as file:
for paragraph in soup.find_all('p'):
text = paragraph.text.replace('.', '.\n')
text = split_sentences(text)
text = summarize(str(text))
text = text.encode('utf-8', 'ignore')
#===========================================
file.write(text+'\n\n'.encode('utf-8'))
Он должен создать файл .txt с итоговым текстом в нем после запуска скриптав любой папке находится файл .py