Question

Я использовал pd.read_csv(my_csv, na_values=['N/A', '--']) так, чтобы строки 'N / A' и '-' интерпретировались как NULL, NaN и т. Д.

Но если бы я использовал клиент BigQuery, я не мог понять, как достичь того же навыка. Я прочитал быструю справку из .to_dataframe (), которая "Возвращает панду DataFrame из QueryJob", но, похоже, не принимает никаких дополнительных аргументов.

Возможно ли это? Или я должен сделать свою собственную пост-обработку для отслеживания пропущенных значений?

Hackaholic · Answer 1 · 29 мая 2019

вы можете добиться того же снизу:

dataFrame.applymap(lambda x: np.nan if x in ['N/A', '--'] else x)

khan · Answer 2 · 30 мая 2019

Если вы выполняете какой-либо запрос перед передачей его результатов в фрейм данных, вы можете легко сделать это на стороне BigQuery, не беспокоясь о фильтрации ваших результатов на стороне клиента.

Что-то вроде IF(column in ('N\A', '--'), null, column) as column должно выполнить эту работу за вас.

Как сделать na_values при создании кадра данных для панд из Google BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сделать na_values ​​при создании кадра данных для панд из Google BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

Как сделать na_values при создании кадра данных для панд из Google BigQuery