У меня есть 16 JSON файлов, каждый из которых имеет размер около 14 ГБ. Я попробовал следующий подход, чтобы прочитать их построчно.
with open(file_name, encoding="UTF-8") as json_file:
cursor = 0
for line_number, line in enumerate(json_file):
print ("Processing line", line_number + 1,"at cursor index:", cursor)
line_as_file = io.StringIO(line)
# Use a new parser for each line
json_parser = ijson.parse(line_as_file)
for prefix, type, value in json_parser:
#print ("prefix=",prefix, "type=",type, "value=",value,ignore_index=True)
dfObj = dfObj.append({"prefix":prefix,"type":type,"value":value},ignore_index=True)
cursor += len(line)
Моя цель - загрузить их во фрейм данных pandas для выполнения некоторых операций поиска.
Проблема заключается в том, что для чтения этого файла требуется много времени.
Есть ли другой оптимальный подход для достижения этой цели?