Нужен способ точной сортировки дублирующих строк с использованием панд или аналогичных библиотек - PullRequest
0 голосов
/ 10 июня 2019

У меня есть набор данных, который содержит номера деталей и группы закупок, и мне было поручено организовать его. Я использовал панды, чтобы найти дубликаты, но это имеет проблемы с целочисленными строками номера детали.

Я попытался удалить все «-» из строк, используя дублированную команду и создав CSV из значений

import pandas as pd
from IPython.display import display, HTML

xls_file=pd.ExcelFile('pnm.xslx')
xls_file
xls_file.sheet_names
df=xls_file.parse('Matrix')
dfd= df[df.duplicated(['Part Number'])]
dfd.to_csv('duplicatesnum.csv')
print (dfd)

Я ожидаю, что это примет все точные повторяющиеся значения, вместо этого он, кажется, принимает значения, которые очень похожи друг на друга, но не совпадают точно. например, если у меня есть 5 значений 1234, 1235 и 2378, оно будет соответствовать 1234 и 1235 вместе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...