Как сделать na_values ​​при создании кадра данных для панд из Google BigQuery - PullRequest
0 голосов
/ 29 мая 2019

Я использовал pd.read_csv(my_csv, na_values=['N/A', '--']) так, чтобы строки 'N / A' и '-' интерпретировались как NULL, NaN и т. Д.

Но если бы я использовал клиент BigQuery, я не мог понять, как достичь того же навыка. Я прочитал быструю справку из .to_dataframe (), которая "Возвращает панду DataFrame из QueryJob", но, похоже, не принимает никаких дополнительных аргументов.

Возможно ли это? Или я должен сделать свою собственную пост-обработку для отслеживания пропущенных значений?

Ответы [ 2 ]

1 голос
/ 29 мая 2019

вы можете добиться того же снизу:

dataFrame.applymap(lambda x: np.nan if x in ['N/A', '--'] else x)
0 голосов
/ 30 мая 2019

Если вы выполняете какой-либо запрос перед передачей его результатов в фрейм данных, вы можете легко сделать это на стороне BigQuery, не беспокоясь о фильтрации ваших результатов на стороне клиента.

Что-то вроде IF(column in ('N\A', '--'), null, column) as column должно выполнить эту работу за вас.

...