У меня есть набор данных, который содержит номера деталей и группы закупок, и мне было поручено организовать его. Я использовал панды, чтобы найти дубликаты, но это имеет проблемы с целочисленными строками номера детали.
Я попытался удалить все «-» из строк, используя дублированную команду и создав CSV из значений
import pandas as pd
from IPython.display import display, HTML
xls_file=pd.ExcelFile('pnm.xslx')
xls_file
xls_file.sheet_names
df=xls_file.parse('Matrix')
dfd= df[df.duplicated(['Part Number'])]
dfd.to_csv('duplicatesnum.csv')
print (dfd)
Я ожидаю, что это примет все точные повторяющиеся значения, вместо этого он, кажется, принимает значения, которые очень похожи друг на друга, но не совпадают точно. например, если у меня есть 5 значений 1234, 1235 и 2378, оно будет соответствовать 1234 и 1235 вместе.