Я попытался получить данные с веб-сайта, используя селен на GCP, и это прекрасно, чтобы получить данные и показать их на экране с помощью команды print (). Однако при попытке отправить данные в большой запрос с помощью to_gbq появляется следующая ошибка, и получаются пустые данные. Сообщение об ошибке:
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 14-30:
Body ('尚道館・西郷派大東流合気武術総本部') is not valid Latin-1. Use body.encode('utf-8') if you want to send it encoded in UTF-8.
Сайт представляет собой страницу на японском языке. Чтобы решить эту проблему, я использовал команду str.encode (utf-8), похоже, что строка должным образом преобразована в utf-8, если смотреть из print (). Однако он получил ту же ошибку. Моя среда Python3 на GCP.
data_rows = []
for e in elems:
data = e.text
data_row = data.splitlines()
data_row.append(datetime.datetime.now())
if len(data_row) == 6:
data_row[0] = data_row[0].encode('utf-8')
data_row[1] = data_row[1].encode('utf-8')
data_row[2] = data_row[2].encode('utf-8')
data_row[3] = data_row[3].encode('utf-8')
data_row[4] = data_row[4].encode('utf-8')
data_rows.append(data_row)
driver.quit()
sample_dataframe = pd.DataFrame(data_rows,columns=
['shop_name','category','nearest_station','telephone_number','address','DL_time'])
print(sample_dataframe)
sample_dataframe.to_gbq('NTT.aikidou2025', 'robotic-column-270803',if_exists = 'replace')`