Question

У меня есть CSV-файл, который выглядит следующим образом:

Name1, 123
Name2, 123
Name1, 456
Name3, 345
Name2, 456
Name1, 123
Name3, 123
Name4, 789
Name2, 789
Name5, 136

вот мой код:

import pyspark
import numpy as np
import pandas as pd
import csv

with open('filehash.csv') as filehash:
    csv_reader=csv.reader(filehash, delimiter=",")

for filehash in csv_reader:

    print (filehash)
    csv_reader.duplicated()

Я знаю, между csv_reader. и .duplicated мне нужен атрибут. Но моя таблица .csv не имеет атрибутов. Я думаю, из-за запятой Итак, как я могу получить свои int-значения после запятой ??

Ожидаемый результат должен быть:

True, True True, False, True, True, True, True, True, False

jcaliz · Answer 1 · 04 мая 2020

Считайте файл csv, используя pandas, используйте duplicated, чтобы узнать, какие значения из второго столбца являются дубликатами:

import pandas as pd

df = pd.read_csv('file.csv', header=None)
duplicates = df[df.columns[1]].duplicated(keep=False).to_list()

duplicates
# [True, True, True, False, True, True, True, True, True, False]

найти и вывести дубликаты файлов в python, строка разделяется запятой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

найти и вывести дубликаты файлов в python, строка разделяется запятой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов