Я работаю над созданием автоматизированного сценария для загрузки файлов с FTP и сохранения их в BigQuery.
Проблема в том, что BigQuery принимает только .csv
файлы.По этой причине я ищу способы обработки файлов .xlsx
и .xls
, при условии, что я планирую разместить этот пакетный код в облаке.
Я упоминаю последний как один из способовЧтобы преобразовать .xlsx
файлы в .csv
, нужно использовать что-то вроде:
import pandas as pd
data_xls = pd.read_excel('file_on_ftp.xlsx')
data_xls.to_csv('csvfile.csv', encoding='utf-8', index=False)
Однако это создаст локальные файлы где-то во временном хранилище.Очевидно, что с облачными функциями я должен следить за тем, был ли файл впоследствии удален или нет, что делает ненадежным, когда одна облачная функция может привести к сбою.
Существуют ли поэтому более эффективные способы обработки .xlsx
загрузки в BigQuery?Или это путь?