В файле JSON 'from_delayed' обнаружено несоответствие метаданных DASK - PullRequest
0 голосов
/ 05 марта 2019

Я только начинаю свое приключение с DASK, и я учусь на примере набора данных в формате json.Я знаю, что это не самый простой формат данных в мире для начинающих:)

У меня есть набор данных в формате json.Я загрузил данные через dd.read_json в dataframe, и все идет хорошо.Проблема возникла, например, с функцией compute() или len().

Я получаю эту ошибку:

ValueError: Metadata mismatch found in `from_delayed`.

Partition type: `DataFrame`
+----------+-------+----------+
| Column   | Found | Expected |
+----------+-------+----------+
| column1  |   -   | object   |
| column2  |   -   | object   |
+----------+-------+----------+

Я пробовал разные вещи, но ничего не помогает.Я не знаю, как справиться с этой ошибкой.

Пожалуйста, помогите, я буду очень благодарен!

1 Ответ

0 голосов
/ 06 марта 2019

Я предполагаю, что ваши данные JSON имеют разные столбцы в разных частях данных.Когда Dask DataFrame загружает ваши данные JSON, он просматривает первый фрагмент данных, чтобы определить, какие имена столбцов и типы данных.Затем предполагается, что все ваши данные выглядят так.

Это предположение оказывается неверным в вашем случае, и, возможно, есть некоторый столбец, который появляется в файле только позже.

Возможно, вы захотите увеличить размер выборки, которую Dask читает, когдаопределение метаданных, таких как имена столбцов.

df = dd.read_json(..., sample=2**26)

По умолчанию 1 МБ (2 ** 20)

...