У меня есть два больших набора данных, один 2,6 ГБ и другой 1 ГБ. Мне удалось прочитать их как DataFrames.
Далее я хочу создать новый DataFrame, в котором я хочу сопоставить оба набора данных по уникальному идентификатору из обоих и отбросить строки, у которых нет идентификаторов, совпадающих между двумя наборами данных.
Я пробовал объединить с небольшим количеством строк, и я думаю, что это работает, но я хочу объединить все это, а также хочу показать индикатор выполнения. Я использую Jupyter Notebook с Python 3.
Matrikkel2019 - это уникальный идентификатор в обоих одинаковых наборах данных, и я хочу сохранить столбцы из обоих наборов данных, но сохранить только значения с одним и тем же matrikkel2019 ID
Код
from tqdm import tqdm_notebook
tqdm_notebook().pandas()
merge = energydata.merge(dwellingData, left_on = "matrikkel2019", right_on="matrikkel2019").progress_apply()
Я пытался использовать lambda x: x**2
внутри функции progress_apply
, но получаю ошибку: TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int' and Invalid arguments error
Основная проблема заключается в том, что операция слияния занимает слишком много времени, и мой P C с 8 ГБ ОЗУ испытывает трудности, так что я не знаю, сколько времени это займет или будет ли оно закончено sh.