Итак, у меня есть несколько статей и для каждой статьи несколько компонентов, составляющих эту статью. Я хотел бы установить процент общих компонентов и получить взамен все статьи, которые имеют общие компоненты. Пример: Статья A, Компоненты: A, B, C, D, E Статья B, Компоненты: B, C, D, E, F
Я хотел бы сказать: покажи мне статьи хотя бы с 80% общих компонентов, и я хотел бы получить: A и B.
Это код, который мне удалось написать, но я застрял: import pandas as pd
file_name = 'C:\\Users\\blabla.xlsx'
sheet = 'Distinta Livello 1'
df = pd.read_excel(io=file_name, sheet_name=sheet)
new_df = df[['COD_ART','COD_COMPO']]
new_df['COD_COMPO'] = new_df[['COD_ART','COD_COMPO']].groupby(['COD_ART'])['COD_COMPO'].transform(lambda x: ','.join(x))
prova=pd.crosstab(df['COD_COMPO'], df['COD_ART'], normalize='index')
Надеюсь, есть простая строка, которую я не знаю. Я начинающий с Python! Большое спасибо за любую помощь, которую вы окажете!