Я пытаюсь использовать красивый суп для веб-поиска URL-адресов, хранящихся в листе Excel. Программа предназначена для синтаксического анализа URL-адресов трех ключевых слов, обновления счетчика каждый раз, когда ключевое слово найдено в HTML, а затем экспорта наиболее распространенного ключевого слова обратно в таблицу Excel. Код работает и может находить ключевые слова в HTML, но в нем отсутствуют некоторые ключевые слова, что приводит к неоптимальным результатам. Это почти как если бы прекрасная функция read_all () супа не могла читать ВСЕ HTML только определенные атрибуты или страницы. Как я могу это исправить? Обыскал ли парсер по всей веб-странице?
Кроме того, иногда, когда программа запущена, и я контролирую- C до завершения, он повреждает Excel do c и дает мне странный zip-файл, который не идентифицирован ошибка. Есть идеи, о чем это?
Спасибо.
def parse(current_url):
try:
page = requests.get('https://' + str(current_url))
soup = BeautifulSoup(page.content, 'html.parser')
for word in soup:
parsed_service = soup.find_all(string=lambda text: 'service' in text.lower())