Как полностью разобрать URL HTML на ключевые слова, используя красивый суп и python - PullRequest
0 голосов
/ 21 июня 2020

Я пытаюсь использовать красивый суп для веб-поиска URL-адресов, хранящихся в листе Excel. Программа предназначена для синтаксического анализа URL-адресов трех ключевых слов, обновления счетчика каждый раз, когда ключевое слово найдено в HTML, а затем экспорта наиболее распространенного ключевого слова обратно в таблицу Excel. Код работает и может находить ключевые слова в HTML, но в нем отсутствуют некоторые ключевые слова, что приводит к неоптимальным результатам. Это почти как если бы прекрасная функция read_all () супа не могла читать ВСЕ HTML только определенные атрибуты или страницы. Как я могу это исправить? Обыскал ли парсер по всей веб-странице?

Кроме того, иногда, когда программа запущена, и я контролирую- C до завершения, он повреждает Excel do c и дает мне странный zip-файл, который не идентифицирован ошибка. Есть идеи, о чем это?

Спасибо.

def parse(current_url):
    try:
        page = requests.get('https://' + str(current_url))
        soup = BeautifulSoup(page.content, 'html.parser')
        for word in soup:
            parsed_service = soup.find_all(string=lambda text: 'service' in text.lower())

...