Получение текста со страниц моего сайта: Python скрипт - PullRequest
0 голосов
/ 07 января 2020

У меня был скрипт, который работал - прошел год с тех пор, как я его вытащил и использовал. Проблема в том, что я сейчас получаю ошибку, и я не знаю, как ее решить. Я также хотел бы уточнить этот код, чтобы мне больше не приходилось перечислять все веб-страницы, а просто все содержимое домена.

Ранее я пытался установить Beautiful Soup, но по какой-то причине это не работает для меня. Я устанавливаю его, но не могу заставить Spyder / Ananconda заново определить библиотеку.

Это ошибка, которую я получаю:

runfile('F:/CRM/CRM/translations/Python script for text from website pages.py', wdir='F:/CRM/CRM/translations')
Traceback (most recent call last):

  File "<ipython-input-13-2f567a94e1f6>", line 1, in <module>
    runfile('F:/CRM/CRM/translations/Python script for text from website pages.py', wdir='F:/CRM/CRM/translations')

  File "C:\Users\Gittel\AppData\Local\Continuum\anaconda3\lib\site-packages\spyder_kernels\customize\spydercustomize.py", line 786, in runfile
    execfile(filename, namespace)

  File "C:\Users\Gittel\AppData\Local\Continuum\anaconda3\lib\site-packages\spyder_kernels\customize\spydercustomize.py", line 110, in execfile
    exec(compile(f.read(), filename, 'exec'), namespace)

  File "F:/CRM/CRM/translations/Python script for text from website pages.py", line 30, in <module>
    file.write(text)

  File "C:\Users\Gittel\AppData\Local\Continuum\anaconda3\lib\encodings\cp1255.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]

UnicodeEncode
import urllib.request
from inscriptis import get_text
sitelist = ["https://grapaes.com",
"https://grapaes.com/events/past-events",
"https://grapaes.com/about-us-our-story",
"https://grapaes.com/about-us-our-story/story",
"https://grapaes.com/worldwide",
"https://grapaes.com/varieties/arra-branding",
"https://grapaes.com/press",
"https://grapaes.com/press/media",
"https://grapaes.com/press/newsletters",
"https://grapaes.com/about-us-our-story/team",
"https://grapaes.com/varieties",
"https://grapaes.com/events",
"https://grapaes.com/varieties/varieties-red-varieties",
"https://grapaes.com/varieties/varieties-black-varieties",
"https://grapaes.com/varieties/varieties-white-varieties",
"https://grapaes.com/partners",
]
i=0
n=0
length = len(sitelist)
for i in sitelist:
        url = i
        html = urllib.request.urlopen(url).read().decode('utf-8')
        text = get_text(html)
        name = i.replace("/",".")
        name1 = name.replace("https:..grapaes.com.", "site - ")
        file=open(name1 + ".doc","w")
        file.write(text)
        file.close()
        n = n + 1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...