Question

Я пытался почистить сайт TED.com для расшифровки стенограммы с использованием Beautiful soup. Очистка выполняется успешно и сохраняет китайский символ в созданном текстовом файле вместо расшифровки. Может кто-нибудь сказать, пожалуйста, как я могу получить стенограмму? Это проблема с кодировкой UTF-8?

def url_to_transcript(url):
    page = requests.get(url).text
    soup = BeautifulSoup(page,'html.parser')
    text = [div.text for div in soup.find_all("div",{"class":"Grid.Grid--with-gutter.d:f"})]
    print(url)
    return text

urls = ['https://www.ted.com/talks/cameron_russell_looks_aren_t_everything_believe_me_i_m_a_model/transcript']
speaker = ['Cameron']


!mkdir Transcripts
for i, c in enumerate(speaker):
    with open("transcripts/" + c + ".txt","wb") as file:
        pickle.dump(transcripts[i], file)

Мой вывод в текстовом файле блокнота - ΀ 煝 ⸀

И мой вывод в текстовом файле блокнота Jupyter - Ошибка! Cameron.txt не имеет кодировки UTF-8. Сохранение отключено. См. Консоль для более подробной информации.

Мой вывод в Интернете показывает китайский символ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Мой вывод в Интернете показывает китайский символ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы