У меня огромный список jsons (3,23 млн. Jsons). Я хочу нормализовать этот список и преобразовать его в датафрейм. Я получу 400 полей после нормализации. Я могу выполнить описанные выше шаги (нормализация, датафрейм) для нескольких тысяч json, но не для всего списка.
Вот как я получил список - просматривая все файлы .json в папке и добавляя каждый json в пустой список data_full = []
`data_full=[]
path ="a/b/c"
for file in os.listdir(path):
full_path = path+'/'+str(file)
with open(full_path) as f:
for line in f:
data_full.append(json.loads(line))`
Учитывая размер списка, я хочу разделить список на 35 равных частей и создать новый фрейм данных для каждой части (df_1, df_2 .. df_35). После многих поисков я смог найти - как преобразовать огромный список в один список (чанки) и как преобразовать список в фрейм данных, но не смог найти способ преобразовать огромный список в несколько новых списков и преобразовать каждый список в новый фрейм данных . Последний бит выделен курсивом, потому что я думаю, что, получив 35 новых списков, я могу легко преобразовать их в новый фрейм данных.
Итак, вопрос в том, как разделить этот огромный список на 35 новых списков.
Если у вас есть какой-либо другой подход / предложения по обработке 3,23 млн. Джсон для выполнения некоторых техник НЛП, я также был бы признателен за это.
Заранее спасибо