Извлечение файла из Excel с последующим удалением дубликатов - PullRequest
0 голосов
/ 01 августа 2020

Я пытаюсь удалить дубликаты из строки, и результат должен выглядеть следующим образом: CNG41383874 CNG41383875 CNG41383876 Пытался преобразовать в словарь, но вместо этого получил данные в виде символов. Есть идеи, как это можно решить?

import pandas as pd

data = pd.concat(pd.read_excel('Todays sheet.xlsx', sheet_name=None), ignore_index=True)

cr = pd.DataFrame(data,columns= ['Carrier'])
rf = pd.DataFrame(data,columns= ['Ref/Lic Nr'])
#Locks data from column 
amtg = data.loc[data.Carrier=='AMTG', 'Ref/Lic Nr']
bgxp = data.loc[data.Carrier=='BGXP', 'Ref/Lic Nr']
dtcv = data.loc[data.Carrier=='DTCV', 'Ref/Lic Nr']
ceeg = data.loc[data.Carrier=='CEEG', 'Ref/Lic Nr']
echs = data.loc[data.Carrier=='ECHS', 'Ref/Lic Nr']
#prints list without index
 
amtg1=(amtg.to_string(index=False, header=False))
bgxp1=(bgxp.to_string(index=False, header=False))
dtcv1=(dtcv.to_string(index=False, header=False))
ceeg1=(ceeg.to_string(index=False, header=False))
echs1=(echs.to_string(index=False, header=False))

amtg2 = list(dict.fromkeys(amtg1))
print(amtg2)

Результат ['', 'C', 'N', 'G', '4', '1', '3', '8', '7', '\ n', '5', '6', 'S', 'E', 'U', 'A', 'L', 'M', ' 9 ',' 2 ',' 0 ',' B ',' D ',' F ',' T ',' K ',' O ',' H ',' s '] формат входной таблицы

Ответы [ 2 ]

0 голосов
/ 01 августа 2020

нашел как решить

добавлено на попрошайках data1 = data.drop_duplicates(subset=["Ref/Lic Nr"], keep="first")

0 голосов
/ 01 августа 2020

Я думаю, что может происходить то, что вы забываете составить список. Попробуйте следующее:

lst = [amtg1, bgxp1, dtcv1, ceeg1, echs1]
amtg2 = list(dict.fromkeys(amtg1))
print(atmg2)

Другой способ создать список без дубликатов:

amtg2 = list(set(amtg1)))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...