Я пытался почистить сайт TED.com для расшифровки стенограммы с использованием Beautiful soup. Очистка выполняется успешно и сохраняет китайский символ в созданном текстовом файле вместо расшифровки. Может кто-нибудь сказать, пожалуйста, как я могу получить стенограмму? Это проблема с кодировкой UTF-8?
def url_to_transcript(url):
page = requests.get(url).text
soup = BeautifulSoup(page,'html.parser')
text = [div.text for div in soup.find_all("div",{"class":"Grid.Grid--with-gutter.d:f"})]
print(url)
return text
urls = ['https://www.ted.com/talks/cameron_russell_looks_aren_t_everything_believe_me_i_m_a_model/transcript']
speaker = ['Cameron']
!mkdir Transcripts
for i, c in enumerate(speaker):
with open("transcripts/" + c + ".txt","wb") as file:
pickle.dump(transcripts[i], file)
Мой вывод в текстовом файле блокнота - 煝 ⸀
И мой вывод в текстовом файле блокнота Jupyter - Ошибка! Cameron.txt не имеет кодировки UTF-8. Сохранение отключено. См. Консоль для более подробной информации.