Я работаю над одностраничным веб-приложением, которое позволит пользователям загружать большой CSV-файл (более 5 ГБ), а затем отправит его на сервер флакона Python для передачи в базу данных. Большие CSV трудно читать в python из-за проблем с памятью, поэтому я думаю, что лучше отправить данные csv в базу данных, такую как sqlite, а затем запросить базу данных, чтобы получить данные обратно. Тем не менее, я попытался прочитать csv-файл размером 6,9 ГБ по частям, используя pandas
, а затем с помощью метода df.to_sql()
сохранить его в sqlite db, но это заняло около часа, что было бы неэффективно на флеш-сервере и ужасном пользователе опыт. Я проводил некоторые исследования, и мне кажется, что я могу использовать рабочие процессы / очереди задач, такие как Celery
или Redis Queue
, чтобы ускорить процесс, но не знаю, как это сделать или мне нужны сокеты для этого. Я младший разработчик, поэтому любая ссылка на учебники, примеры или советы будет принята с благодарностью.