веб-сканер - PullRequest
       34

веб-сканер

0 голосов
/ 25 апреля 2020

Я использую http://corpus.tools/wiki/SpiderLing для сканирования веб-сайтов и создания корпуса.

Я устанавливаю все требования и запускаю

python3 ./spiderling.py < seed_urls > run/out 


Exception in thread process_web_pages:Traceback (most recent call last):
  File "/usr/lib/python3.6/threading.py", line 916, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.6/threading.py", line 864, in run
    self._target(*self._args, **self._kwargs)
  File "process.py", line 490, in process_web_pages
    extracted_text_and_metadata = any2txt(body_bs, path, error_msgs)
  File "process.py", line 308, in any2txt
    paragraph_data = extract_paragraphs(data_bs, path, lang)
  File "process.py", line 289, in extract_paragraphs

    html_root = justext.preprocess_html_root(html_root)
AttributeError: module 'justext.core' has no attribute 'preprocess_html_root'

Может кто-нибудь помочь как это исправить Ошибка и использовать этот код?

или предложить мне другой код, который я могу сканировать в Интернете? (просканировать все сайты, проиндексировать ...)

С наилучшими пожеланиями

...