Конвертировать огромный список JSONST в несколько кадров данных - PullRequest
2 голосов
/ 02 апреля 2019

У меня огромный список jsons (3,23 млн. Jsons). Я хочу нормализовать этот список и преобразовать его в датафрейм. Я получу 400 полей после нормализации. Я могу выполнить описанные выше шаги (нормализация, датафрейм) для нескольких тысяч json, но не для всего списка.

Вот как я получил список - просматривая все файлы .json в папке и добавляя каждый json в пустой список data_full = []

`data_full=[]
 path ="a/b/c"
 for file in os.listdir(path):
    full_path = path+'/'+str(file)

    with open(full_path) as f:
        for line in f:
            data_full.append(json.loads(line))`

Учитывая размер списка, я хочу разделить список на 35 равных частей и создать новый фрейм данных для каждой части (df_1, df_2 .. df_35). После многих поисков я смог найти - как преобразовать огромный список в один список (чанки) и как преобразовать список в фрейм данных, но не смог найти способ преобразовать огромный список в несколько новых списков и преобразовать каждый список в новый фрейм данных . Последний бит выделен курсивом, потому что я думаю, что, получив 35 новых списков, я могу легко преобразовать их в новый фрейм данных.

Итак, вопрос в том, как разделить этот огромный список на 35 новых списков. Если у вас есть какой-либо другой подход / предложения по обработке 3,23 млн. Джсон для выполнения некоторых техник НЛП, я также был бы признателен за это.

Заранее спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...