В Python Я пытаюсь загрузить каждый URL, содержащийся в файле размером 180 МБ JSON. Хотя это всего лишь 180 МБ, когда я пытаюсь открыть его с помощью текстового редактора, он использует 5,9 ГБ памяти.
Итак, Jupyter падает, когда я пытаюсь прочитать JSON и извлечь URL-адрес изнутри.
Вот пример из файла JSON.
{"company name": "ZERO CORP", "cik_number": "109284", "form_id": "10-K", "date": "19940629", "file_url": "https://www.sec.gov/Archives/data/109284/0000898430-94-000468.txt"}
{"company name": "FOREST LABORATORIES INC", "cik_number": "109563", "form_id": "10-K", "date": "19940628", "file_url": "https://www.sec.gov/Archives/data/38074/0000038074-94-000021.txt"}
{"company name": "GOULDS PUMPS INC", "cik_number": "14637", "form_id": "10-K", "date": "19940331", "file_url": "https://www.sec.gov/Archives/data/42791/0000042791-94-000002.txt"}
{"company name": "GENERAL HOST CORP", "cik_number": "275605", "form_id": "10-Q", "date": "19940701", "file_url": "https://www.sec.gov/Archives/data/40638/0000950124-94-001209.txt"}
Решения, которые, как мне кажется, могут работать:
1) Я думаю, что мне понадобится какой-нибудь управления памятью, чтобы перебрать все file_url и загрузить их в Python.
2) Я могу, какой JavaScript и использовать node.js, чтобы сделать эту итерацию asy c, но я никогда не использовал JavaScript или node.js до.