Как удалить дубликаты из файла Excel с помощью панд - PullRequest
0 голосов
/ 01 июля 2018

Я работаю над листом Excel:

animal name    age
dog    puppy   1
dog    doggy   2
dog    snooppy 3
cat    pussy   1
pig    piggy   1
pig    cutty   2
rabit  robby   1
rabbit bunny   2

Здесь я должен проверить, равен ли возраст животных 1, удалить эту строку и напечатать следующую строку, а также удалить дубликаты, если дубликатов нет, должен напечатать эту строку и этот вывод должен быть напечатан в другом листе Excel.

Может ли кто-нибудь помочь мне в этом?

import 
imatplotlib.pyplot as plt
import pandas as pd

data = pd.read_excel(r"C:\Users\c_ssaiva\Desktop\sampladata.xlsx")
for index,row in data.iterrows():
print(index,row['animal'],row['name'],row['age'])
for j,row in data.iterrows():

 if a[i] == a[j]:
 if a[i] == 1
 print a[j]
 else:
 print (a[i])
 df = data
 df.to_excel(r"C:\Users\c_ssaiva\Desktop\selcol.xlsx")          

1 Ответ

0 голосов
/ 01 июля 2018

хей шрвя. Панды потрясающие и могут делать все, что вы просите, без петель :) Вы можете сделать это в одну строку

df = data[data['age'] != 1].drop_duplicates()

Мы создали новый df, который удаляет все записи, где 'age'! = 1, а затем мы удаляем дубликаты:)

Я не уверен, какова цель распечатывания значений. Почему вы хотите напечатать значения на экране?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...