Привет, у меня есть огромный файл tsv, с которым мне нужно работать, поэтому мне нужно изменить его размер, чтобы я использовал код, подобный этому
MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
MyList.append(chunk)
, затем я хотел искать уникальные значения в одном из столбцов (вики) ) единственная идея, которая у меня была, - это код
MyList[0].wiki.unique()
, использующий этот код, является своего рода проблематичным c, потому что в одно время я могу искать только один фрагмент (их 43), а затем есть дубликаты в Разные чанки, у кого-нибудь есть идеи, как использовать .unique в этом чанксизированном файле, а не в одном чанке?