В прикрепленном файле csv есть 4 столбца с полем индекса.
Четвертый столбец - это список столбцов списка.Записи с одним элементом представлены в виде списка [13455], а записи с несколькими элементами представлены как «[13764,13455,13456]».
Я хочу удалить двойные кавычки и прочитать последний столбец каксписок только из списка.Пожалуйста, предложите мне, как это сделать.
Я также пытаюсь найти максимальное значение из всего списка списка.
В этом примере я пытаюсь найти 20930, что является максимальным значением. Образец изображения файла здесь
full_data1 = pd.DataFrame([])
for gm_chunk1 in tqdm_notebook(pd.read_csv('CD_1000.csv',skipinitialspace = True, sep = ',', quotechar='"', usecols = ['ID','NBR','Day','CD'], chunksize=10000)):
gm_chunk1 = gm_chunk1['CD'].apply(lambda x: x.strip('"'))
gm_chunk1 = gm_chunk1.groupby(['ID'],as_index=False).agg(lambda x: list(x))
full_data1 = full_data1.append(gm_chunk1)
print(len(full_data1))
print (50*'--')
Данные содержат около 150 миллионов записей.Я также пытаюсь сделать групповой на основе ID.Похоже, группа работает нормально.Но потом я понял, что последний столбец стал всеми символами, а не списком списка.