Мы создали API распознавания изображений, который принимает URL-адрес изображения и отвечает на описание изображения. Этот процесс занимает около 5-20 секунд.
У меня есть огромный CSV-файл, содержащий более 200 миллионов строк URL-адресов изображений из разных источников. Я обнаружил, что файл CSV содержит дубликаты URL-адресов изображений из разных источников. Поэтому мне не нужно отправлять все URL-адреса в API распознавания изображений, мне нужно отправлять только уникальные URL-адреса в API, но мне нужно заполнить ответ от API на все строки.
Я прочитал файл CSV кусками по 100 тыс. Строк, создал набор уникальных URL-адресов изображений, обработал их в API и снова заполнил результаты обратно в файл CSV. Но это привело к проблемам с памятью (16 ГБ ОЗУ), я не могу создать набор уникальных URL-адресов изображений с 200+ миллионами строк.
Есть предложения?