Я пытаюсь создать файл словаря для файла CSV большого размера, который делится на куски для обработки, но когда я создаю словарь, я просто делаю это для одного чака, и когда я пытаюсь добавить его это передает epmty dataframe новому df. это код, который я использовал
wdata = pd.read_csv(fileinput, nrows=0,).columns[0]
skip = int(wdata.count(' ') == 0)
dic = pd.DataFrame()
for chunk in pd.read_csv(fileinput, names=['sentences'], skiprows=skip, chunksize=1000):
dic_tmp = (chunk['sentences'].str.split(expand=True).stack().value_counts().rename_axis('word').reset_index(name='freq'))
dic.append(dic_tmp)
dic.to_csv('newwww.csv', index=False)
, если я сохранил dic_tmp, то это просто словарь для одного куска, а не для всего набора, а di c занимает много времени для обработки, но возвращает пустые кадры данных в конец, любая ошибка с моим кодом?
входной CSV похож на
![enter image description here](https://i.stack.imgur.com/aean1.png)
выходной CSV похож на
![enter image description here](https://i.stack.imgur.com/zjVjo.png)
ожидаемый результат должен составлять
![enter image description here](https://i.stack.imgur.com/ZcnjD.png)
, поэтому он не добавляет куски вместе, а просто вставляет новый блок независимо от того, что находится в предыдущем блоке или CSV.