У меня есть CSV, содержащий 1,6 миллиона строк данных и около 150 МБ, он содержит данные о продукте.У меня есть другой CSV, содержащий 2000 строк, который содержит список продуктов в большом CSV.Они связаны друг с другом уникальным идентификатором.Идея состоит в том, чтобы добавить данные продукта в CSV с 2000 строками.
Файл databank.csv имеет заголовки ID
, Product Name
, Description
, Price
.sm_list.csv
имеет заголовок ID
.
. В результате выдается CSV с продуктами в sm_list.csv
с соответствующими данными в databank.csv
... 2000 строк.
Мое оригинальное решение читает все 1015 * и читает банк данных построчно.Он ищет sm_list
для ID
в строке, считанной из банка данных.Это приводит к 2000x1,6 миллионам = 3200 миллионам сравнений!
Не могли бы вы предоставить базовую схему алгоритма для наиболее эффективного выполнения этой задачи?