Я хочу обработать файл CSV, присутствующий на моем локальном жестком диске, кусками, используя панд.У меня есть готовый код обработки, и он работает без каких-либо ошибок, если я выполнил код для всего набора данных.Проблема возникает, когда один и тот же код выполняется на чанках.
Я подумал, что, возможно, чанки принадлежат к разным типам данных, поэтому попытался проверить тип чанков, используя type(chunk)
, и он совпадает с type(whole_dataframe)
.
Что я пробовал:
whole_data = pd.read_csv('data.csv', sep=',', header=0)
whole_data['cuisines'] = whole_data.cuisines.apply(lambda x: ','+x)
Это дает мне ожидаемый результат.Но когда я пытаюсь запустить такой же код на чанках, как:
for chunk in pd.read_csv('data.csv', sep=',', header=0, chunksize=1000):
chunk['cuisines'] = chunk.cuisines.apply(lambda x: ','+x)
Это выдает мне ошибку: TypeError: can only concatenate str (not "float") to str
Я ожидаю, что вывод будет таким же, как вывод, полученный при запускекод всего набора данных.