Как я могу загружать из Google Таблиц в BigQuery? Могу ли я сделать это через Pandas DF? - PullRequest
1 голос
/ 09 июля 2020

Хорошо. Позвольте мне рассказать вам здесь длинную историю. Я не совсем программист; Я в основном использую Python, чтобы упростить себе работу по дому.

Я сохранял данные RSS-канала в Google Таблицах в течение нескольких месяцев (да, с IFTTT); это было довольно просто, но теперь оно чудовищно по размеру и его трудно запросить. Итак, я пытаюсь загрузить их в BigQuery.

Самый простой способ - загрузить в виде CSV, а затем загрузить в GCS, но он не работает из-за символов, включенных в заголовки элементов фида. Если он распознает что-то как незамкнутую запятую, CSV объединяет все последующие значения, пока не распознает что-то как закрывающую запятую. Если я очищаю эти символы в текстовом редакторе, я теряю важную информацию в URL-адресах с идиосинкратическим форматом.

Затем я попытался загрузить данные из Таблиц в BigQuery, установив задание «создать таблицу» в графическом пользовательском интерфейсе. Это должно быть легко, так как есть возможность импорта из Таблиц. Но нет. Он распознает количество столбцов, но импортирует из них zip.

Затем у меня возникла идея импортировать данные в Pandas фрейм данных в Colab, затем выполнить некоторую очистку и затем загрузить в BigQuery. Импорт и очистка сработали, но я не нашел документации, которой я мог следовать при загрузке в BQ.

Я попытался загрузить фрейм данных в GCS как CSV, чтобы позже я мог загрузить его в BQ , но забудьте об этом: случаются те же ошибки CSV. Мне нужно обойти CSV в качестве посредника.

Есть идеи, что я могу сделать?

...