Панды: Чтение первых n строк из файла паркета? - PullRequest
0 голосов
/ 31 декабря 2018

У меня есть файл паркета, и я хочу прочитать первые n строки из файла во фрейм данных Pandas.То, что я пытался:

df = pd.read_parquet(path= 'filepath', nrows = 10)

Это не сработало и выдало мне ошибку:

TypeError: read_table() got an unexpected keyword argument 'nrows'

Я тоже попробовал аргумент skiprows, но это также дало мне ту же ошибку.

Кроме того, я могу прочитать полный файл паркета и отфильтровать первые n строк, но для этого потребуются дополнительные вычисления, которых я хочу избежать.

Есть ли способ достичь этого?

Ответы [ 2 ]

0 голосов
/ 02 января 2019

Parquet file - это хранилище, ориентированное на столбцы, предназначенное для этого ... Так что нормально загружать все файлы, чтобы получить доступ только к одной строке.

0 голосов
/ 02 января 2019

После изучения и связи с командой разработчиков pandas, конечная точка - pandas не поддерживает аргумент nrows или skiprows при чтении файла паркета.

Причина в том, что панды используют паркетные движки pyarrow или fastparquet для обработки файла паркета, а pyarrow не поддерживает частичное чтение файла или чтение файла путем пропуска строк (не уверен насчет fastparquet),Ниже приведена ссылка на обсуждение вопроса о pandas github.

https://github.com/pandas-dev/pandas/issues/24511

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...