Question

У меня есть файл паркета, и я хочу прочитать первые n строки из файла во фрейм данных Pandas.То, что я пытался:

df = pd.read_parquet(path= 'filepath', nrows = 10)

Это не сработало и выдало мне ошибку:

TypeError: read_table() got an unexpected keyword argument 'nrows'

Я тоже попробовал аргумент skiprows, но это также дало мне ту же ошибку.

Кроме того, я могу прочитать полный файл паркета и отфильтровать первые n строк, но для этого потребуются дополнительные вычисления, которых я хочу избежать.

Есть ли способ достичь этого?

B. M. · Answer 1 · 02 января 2019

Parquet file - это хранилище, ориентированное на столбцы, предназначенное для этого ... Так что нормально загружать все файлы, чтобы получить доступ только к одной строке.

Sanchit Kumar · Answer 2 · 02 января 2019

После изучения и связи с командой разработчиков pandas, конечная точка - pandas не поддерживает аргумент nrows или skiprows при чтении файла паркета.

Причина в том, что панды используют паркетные движки pyarrow или fastparquet для обработки файла паркета, а pyarrow не поддерживает частичное чтение файла или чтение файла путем пропуска строк (не уверен насчет fastparquet),Ниже приведена ссылка на обсуждение вопроса о pandas github.

https://github.com/pandas-dev/pandas/issues/24511

Панды: Чтение первых n строк из файла паркета?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды: Чтение первых n строк из файла паркета?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы