Я использую http://corpus.tools/wiki/SpiderLing для сканирования веб-сайтов и создания корпуса.
Я устанавливаю все требования и запускаю
python3 ./spiderling.py < seed_urls > run/out
Exception in thread process_web_pages:Traceback (most recent call last):
File "/usr/lib/python3.6/threading.py", line 916, in _bootstrap_inner
self.run()
File "/usr/lib/python3.6/threading.py", line 864, in run
self._target(*self._args, **self._kwargs)
File "process.py", line 490, in process_web_pages
extracted_text_and_metadata = any2txt(body_bs, path, error_msgs)
File "process.py", line 308, in any2txt
paragraph_data = extract_paragraphs(data_bs, path, lang)
File "process.py", line 289, in extract_paragraphs
html_root = justext.preprocess_html_root(html_root)
AttributeError: module 'justext.core' has no attribute 'preprocess_html_root'
Может кто-нибудь помочь как это исправить Ошибка и использовать этот код?
или предложить мне другой код, который я могу сканировать в Интернете? (просканировать все сайты, проиндексировать ...)
С наилучшими пожеланиями