Я читаю большой файл, который содержит ~ 9,5 миллионов строк x 16 столбцов.
Я заинтересован в получении репрезентативной выборки, и, поскольку данные организованы по времени, я хочу сделать это, выбравкаждый 500-й элемент.
Я могу загрузить данные, а затем выбрать каждую 500-ю строку.
Мой вопрос: можно ли сразу прочитать каждый 500-й элемент (используя .pd.read_csv () иликаким-то другим способом), без необходимости сначала читать, а затем фильтровать мои данные?
Вопрос 2: Как бы вы подошли к этой проблеме, если бы столбец даты не был упорядочен?В настоящий момент я предполагаю, что он упорядочен по дате, но все данные подвержены ошибкам.
Вот фрагмент того, как выглядят данные (первые пять строк) Первые 4 строки не в порядке,но оставшийся набор данных выглядит упорядоченным (по времени):
VendorID tpep_pickup_datetime tpep_dropoff_datetime passenger_count trip_distance RatecodeID store_and_fwd_flag PULocationID DOLocationID payment_type fare_amount extra mta_tax tip_amount tolls_amount improvement_surcharge total_amount
0 1 2017-01-09 11:13:28 2017-01-09 11:25:45 1 3.30 1 N 263 161 1 12.5 0.0 0.5 2.00 0.00 0.3 15.30
1 1 2017-01-09 11:32:27 2017-01-09 11:36:01 1 0.90 1 N 186 234 1 5.0 0.0 0.5 1.45 0.00 0.3 7.25
2 1 2017-01-09 11:38:20 2017-01-09 11:42:05 1 1.10 1 N 164 161 1 5.5 0.0 0.5 1.00 0.00 0.3 7.30
3 1 2017-01-09 11:52:13 2017-01-09 11:57:36 1 1.10 1 N 236 75 1 6.0 0.0 0.5 1.70 0.00 0.3 8.50
4 2 2017-01-01 00:00:00 2017-01-01 00:00:00 1 0.02 2 N 249 234 2 52.0 0.0 0.5 0.00 0.00 0.3 52.80