Я знаю, что есть аналогичные вопросы о стековом потоке, но я использую другую библиотеку для очистки данных. У меня есть список URL-адресов веб-сайтов, и я делаю очистку веб-страниц с помощью библиотеки 'urllib'. Лишь немногие веб-сайты отличаются или имеют свой родной язык, и моя функция не может их очистить. Как преобразовать эти веб-страницы в язык Engli sh перед очисткой данных.
def dataextraction():
for url in urls:
final_url = 'http://' + url
try:
html = urllib.request.urlopen(final_url).read().decode('utf-8')
text = get_text(html)
extracted_data = text.split()
refined_data = []
SYMBOLS = '{}()[].,:;+-*/&|<>=~0123456789'
for i in extracted_data:
if i not in SYMBOLS:
refined_data.append(i)
print("\n", "$" * 50, "HEYAAA we got arround: ", len(refined_data), " of keywords! Here are they: ",
"$" * 50, "\n")
print(refined_data)
except:
pass