Загрузка строк от n до n + x строк файла Excel в фрейм данных на python, где n и x предопределены - PullRequest
1 голос
/ 14 мая 2019

У меня 4500 файлов, каждый из которых имеет около 44000 строк, и мне нужно загрузить все их один за другим, чтобы вычислить некоторые значения. Однако меня интересуют только 20000 строк, которые начинаются после 12000. Есть ли способ игнорировать первые 12000 строк и загружать только следующие 20000 строк?

Мутация файлов не разрешена, поэтому я не могу удалить первые 12000 строк из всех этих файлов и использовать pd.read_csv ('File_name.csv', nrows = 20000)

df = pd.read_excel("folder_name" + '/{}'.format(file_name),  
                   engine='xlrd', index_col=False)  
df = df[df.Header_1 == 'Common_Value_Shared_By_Interested_Rows']  

То, что делает приведенный выше код, загружает все 44000 строк Excel и затем фильтрует их в соответствии со значением столбца в Header_1.

Но я хотел бы знать, смогу ли я сделать то же самое, не загружая все сначала.

Ответы [ 2 ]

1 голос
/ 14 мая 2019

Попробуйте:

df = pd.read_excel("folder_name" + '/{}'.format(file_name), engine='xlrd', index_col=False, skiprows=12000, nrows=20000)

РЕДАКТИРОВАТЬ: для выбора только 20000 rows мы можем использовать nrows

0 голосов
/ 14 мая 2019

Используйте комбинацию skiprows и skipfooter:

Документы: read_excel

Возможно, вам следует использовать usecols, если вы знаете нужные столбцы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...