Ошибка индекса при чтении CSV-файла по частям с использованием Pandas - PullRequest
0 голосов
/ 17 июня 2020

Я новый пользователь Python. Я пытаюсь открыть огромный файл csv (13 ГБ) по частям, отфильтровать данные, а затем присоединиться к чистым данным.

Я пробовал этот код:

iter_data = pd.read_csv('OFER_CPA_OPCOES_20191101.txt',sep=";" ,header=0,iterator=True,
        names=["SessionDate","InstrumentSymbol","OrderSide",
               "SequentialOrderNumber","SecondaryOrderID","ExecutionType",
               "PriorityTime","PriorityIndicator","OrderPrice",
               "TotalQuantity","TradedQuantity","OrderDate",
               "PriorityDateTime","OrderStatus",
               "AggressorIndicator", "Member"], chunksize=500000)
     
chunk_list=[]
for chunk in iter_data:  
     
    chunk_filter = chunk[chunk.dropna().InstrumentSymbol.str.contains("BBDC")]     
    chunk_list.append(chunk_filter)

final_data = pd.concat(chunk_list)

Проблема в том, что l oop генерирует следующую ошибку:

"Unalignable boolean Series provided as"

IndexingError: Unalignable boolean Series предоставлены как индексатор (индекс логической серии и индексированный объект не совпадает) .

Я не знал, почему это происходит. Было бы здорово, если бы кто-нибудь из вас знал, что вызывает ошибку в моем коде.

Пс. Я впервые пишу сюда, извините, если это немного сбивает с толку.

...