Как быстрее проанализировать данные из JSON в DataFrame? - PullRequest
0 голосов
/ 09 апреля 2019

У меня есть файлы json общим размером 3 ГБ. Мне нужно проанализировать некоторые данные из него в Pandas Dataframe. Я уже сделал это немного быстрее с помощью пользовательской библиотеки для анализа json, но она все еще слишком медленная. Он работает только в одном потоке, это тоже проблема. Как я могу сделать это быстрее? Основная проблема заключается в том, что он начинается с 60it / s, но на 50000-й скорости итераций снижается до 5it / s, но ОЗУ все еще используется не полностью, поэтому это не проблема. Вот пример того, что я делаю:

import tqdm
with open('data/train.jsonlines') as fin:
    for line in tqdm.tqdm_notebook(fin):
        record = ujson.loads(line)
        for target in record['damage_targets']:
            df_train.loc[record['id'], 'target_{}'.format(target)] = record["damage_targets"][target]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...