Разница между set_index и index_col - PullRequest
0 голосов
/ 09 мая 2020

Я читаю CSV-файл, содержащий ~ 70K строк, и объединяю его с фреймом данных, который составляет около 84 миллионов строк. Я хочу, чтобы столбцы индекса были A и B, чтобы оба они могли объединиться. Когда я читаю в формате CSV размером 70 КБ, используя df = pd.read_csv(file, index_col = ['A','B]), а затем сливаю его по индексу, это занимает около 15-20 секунд. Однако, когда я читал его, просто выполняя df = pd.read_csv(file), а затем df.set_index(['A','B'], а затем объединяю его с строкой DF 84M в индексе, это занимает ~ 15 минут. Есть ли между ними какая-то значительная разница? set_index ленив?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...