Я читаю CSV-файл, содержащий ~ 70K строк, и объединяю его с фреймом данных, который составляет около 84 миллионов строк. Я хочу, чтобы столбцы индекса были A
и B
, чтобы оба они могли объединиться. Когда я читаю в формате CSV размером 70 КБ, используя df = pd.read_csv(file, index_col = ['A','B])
, а затем сливаю его по индексу, это занимает около 15-20 секунд. Однако, когда я читал его, просто выполняя df = pd.read_csv(file)
, а затем df.set_index(['A','B']
, а затем объединяю его с строкой DF 84M в индексе, это занимает ~ 15 минут. Есть ли между ними какая-то значительная разница? set_index
ленив?