Как перевести веб-страницу на Engli sh перед тем, как начать соскоб? - PullRequest
0 голосов
/ 10 апреля 2020

Я знаю, что есть аналогичные вопросы о стековом потоке, но я использую другую библиотеку для очистки данных. У меня есть список URL-адресов веб-сайтов, и я делаю очистку веб-страниц с помощью библиотеки 'urllib'. Лишь немногие веб-сайты отличаются или имеют свой родной язык, и моя функция не может их очистить. Как преобразовать эти веб-страницы в язык Engli sh перед очисткой данных.

def dataextraction():

    for url in urls:
        final_url = 'http://' + url
        try:
            html = urllib.request.urlopen(final_url).read().decode('utf-8')
            text = get_text(html)
            extracted_data = text.split()
            refined_data = []
            SYMBOLS = '{}()[].,:;+-*/&|<>=~0123456789'
            for i in extracted_data:
                if i not in SYMBOLS:
                    refined_data.append(i)
            print("\n", "$" * 50, "HEYAAA we got arround: ", len(refined_data), " of keywords! Here are they: ",
                  "$" * 50, "\n")
            print(refined_data)

        except:
            pass
...