Очистите страницу после перевода, используя bs4 - PullRequest
0 голосов
/ 26 сентября 2018

Я пытаюсь почистить страницу, которая находится во Франции, преобразовав ее в английский.

Вот мой код, использующий красивый суп и запрашивающий пакеты в python.

import requests
from bs4 import BeautifulSoup
url = '<url>'
headers = {"Accept-Language": "en,en-gb;q=0.5"}
r = requests.get(url, headers=headers)
c = r.content
soup = BeautifulSoup(c)

но этовсе еще дает текст на французском языке.

может кто-нибудь предложить изменения / альтернативный код.

1 Ответ

0 голосов
/ 26 сентября 2018

Вы можете использовать TextBlob для преобразования строк в различные языки, например, преобразование участков с французского сайта ebay:

import requests
from bs4 import BeautifulSoup
from textblob import TextBlob

url = 'https://www.ebay.fr/'
french = []
english = []
r = requests.get(url)
c = r.content
soup = BeautifulSoup(c)
for li in soup.find_all('span'):
    french.append(li.text)

Frenchstr = ''.join(french)
blob = TextBlob(Frenchstr)
print(Frenchstr)
Englishstr = blob.translate(to="EN")
print('------------------------------------------------')
print(Englishstr)
...