найти и вывести дубликаты файлов в python, строка разделяется запятой - PullRequest
0 голосов
/ 04 мая 2020

У меня есть CSV-файл, который выглядит следующим образом:

Name1, 123
Name2, 123
Name1, 456
Name3, 345
Name2, 456
Name1, 123
Name3, 123
Name4, 789
Name2, 789
Name5, 136

вот мой код:

import pyspark
import numpy as np
import pandas as pd
import csv

with open('filehash.csv') as filehash:
    csv_reader=csv.reader(filehash, delimiter=",")

for filehash in csv_reader:

    print (filehash)
    csv_reader.duplicated()

Я знаю, между csv_reader. и .duplicated мне нужен атрибут. Но моя таблица .csv не имеет атрибутов. Я думаю, из-за запятой Итак, как я могу получить свои int-значения после запятой ??

Ожидаемый результат должен быть:

True, True True, False, True, True, True, True, True, False

1 Ответ

0 голосов
/ 04 мая 2020

Считайте файл csv, используя pandas, используйте duplicated, чтобы узнать, какие значения из второго столбца являются дубликатами:

import pandas as pd

df = pd.read_csv('file.csv', header=None)
duplicates = df[df.columns[1]].duplicated(keep=False).to_list()

duplicates
# [True, True, True, False, True, True, True, True, True, False]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...