У меня есть файлы json общим размером 3 ГБ. Мне нужно проанализировать некоторые данные из него в Pandas Dataframe. Я уже сделал это немного быстрее с помощью пользовательской библиотеки для анализа json, но она все еще слишком медленная. Он работает только в одном потоке, это тоже проблема. Как я могу сделать это быстрее? Основная проблема заключается в том, что он начинается с 60it / s, но на 50000-й скорости итераций снижается до 5it / s, но ОЗУ все еще используется не полностью, поэтому это не проблема. Вот пример того, что я делаю:
import tqdm
with open('data/train.jsonlines') as fin:
for line in tqdm.tqdm_notebook(fin):
record = ujson.loads(line)
for target in record['damage_targets']:
df_train.loc[record['id'], 'target_{}'.format(target)] = record["damage_targets"][target]