невозможно импортировать столбцы DATE таблицы CSV в BigQuery - PullRequest
0 голосов
/ 11 апреля 2020

Я не могу импортировать таблицу CSV> столбцы DATE в BigQuery, DATE не распознаются, даже если они имеют правильный формат в соответствии с этим документом https://cloud.google.com/bigquery/docs/schema-detect ГГГГ-ММ-ДД

Итак Столбцы DATE не распознаются и переименовываются в _2020-0122, 2020-01-23 ... Проблема в том, что DATES находятся в 1-й строке в качестве имени столбца? Но как я могу импортировать даты, когда я хочу использовать их в диаграммах TimeSeries (DataStudio)?


вот пример исходного кода csv>

Province/State,Country/Region,Lat,Long,2020-01-22,2020-01-23,2020-01-24,2020-01-25,2020-01-026
Anhui,China,31.8257,117.2264,1,9,15,39,60
Beijing,China,40.1824,116.4142,14,22,36,41,68
Chongqing,China,30.0572,107.874,6,9,27,57,75

Вот ig из Bigquery enter image description here

Ответы [ 2 ]

1 голос
/ 12 апреля 2020

Если у вас есть ограниченное количество дней, вы можете использовать таблицу разворачивания при ее использовании. См. сообщение в блоге.

в противном случае, если вы не знаете, сколько дневных столбцов в CSV-файле. выберите уникальный символ в качестве разделителя csv, затем просто загрузите весь файл в промежуточную таблицу с одним столбцом, затем используйте функцию split . вам также понадобится unnest . Этот подход требует полного сканирования и будет более дорогим, особенно когда размер файла увеличивается.

0 голосов
/ 14 апреля 2020

Проблема заключается в том, что в именах столбцов у вас не может быть тип даты , по этой причине при импорте CSV он берет даты и преобразует их в формат с подчеркиванием.

Первым способом решения проблемы будет изменение файла CSV, поскольку любой импорт с первой строкой в ​​качестве заголовка изменит формат даты, а затем будет сложнее снова перейти к типу даты. Если у вас есть опыт работы с любым языком программирования, вы можете очень легко выполнить преобразование. Я могу помочь в этом, но я не знаю ваш вариант использования, поэтому, возможно, это невозможно. Откуда взялся этот CSV?

Если предыдущая модификация CSV невозможна, то второй вариант - это то, что сказал ktopcuoglu, импортируя весь файл как один столбец и обрабатывая его, используя функцию SQL. Это намного сложнее, чем первый вариант, и когда вы импортируете все данные в один столбец, все данные будут иметь один и тот же тип данных, что также будет головной болью.

Если бы вы могли объяснить, откуда взялся CSV, мы могли бы повлиять на него до того, как его проглотит BigQuery. Иначе вам нужно немного углубиться в SQL.

Надеюсь, это поможет!


Привет, теперь я могу помочь вам в дальнейшем.

Сначала Я нашел несколько наборов данных COVID в наборах больших запросов publi c. Тот, который вы берете из github , уже находится в BigQuery , но есть много других, которые могут лучше работать для вашей задачи, например, тот, который называется «covid19_ecdc», который находится внутри bigquery-publi c -data , В этом последнем есть подтвержденные случаи и смерти на дату и страну, поэтому будет легко составить временной ряд.

Во-вторых, я нашел интересную ссылку, выполняющую то, что вы имели в виду с python и data studio. Это обсуждение kaggle , так что вы, возможно, не знакомы с ним, но оно заслуживает проверки наверняка. Более того, он использует набор данных, который вы пытаетесь использовать.

Надеюсь, это поможет. Не стесняйтесь спрашивать!

...