Python pandas уникальные значения в кусочном файле - PullRequest
0 голосов
/ 14 апреля 2020

Привет, у меня есть огромный файл tsv, с которым мне нужно работать, поэтому мне нужно изменить его размер, чтобы я использовал код, подобный этому

MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
    MyList.append(chunk)

, затем я хотел искать уникальные значения в одном из столбцов (вики) ) единственная идея, которая у меня была, - это код

MyList[0].wiki.unique()

, использующий этот код, является своего рода проблематичным c, потому что в одно время я могу искать только один фрагмент (их 43), а затем есть дубликаты в Разные чанки, у кого-нибудь есть идеи, как использовать .unique в этом чанксизированном файле, а не в одном чанке?

1 Ответ

1 голос
/ 15 апреля 2020

Посмотрите, решит ли это вашу проблему.

unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
    unique_values = unique_values | set(chunk.wiki.unique())
...