Панды dtypes теряются при хранении с паркетом - PullRequest
0 голосов
/ 22 марта 2019

Я напишу паркетный файл моего фрейма данных для последующего использования.Информация о типе в столбцах dataframe важна для моего окончательного варианта использования, но кажется, что эта информация теряется при записи и чтении из файла паркета:

def test_parquet_dtype(self):
    pq_file_loc = 'pq.pq'
    df = pd.DataFrame({'A': [1,2,3,4], 'B': [1,2,3,4]})
    df = df.astype({'A': 'category', 'B': 'object'})
    self.assertEqual(['category', 'object'], list(df.dtypes))

    df.to_parquet(pq_file_loc)
    new_df = pd.read_parquet(pq_file_loc)
    self.assertEqual(['category', 'object'], [str(dtype) for dtype in new_df.dtypes])

    # Expected: ['category', 'object']
    # Actual: ['int64', 'int64']

Есть ли лучший способ сохранить и извлечьфайл паркета для сохранения информации о типе?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...