Я пытаюсь проанализировать возникновение сопутствующей патологии из набора данных Kaggle в качестве отвратительного тренировочного упражнения. Я смог получить все пятнадцать патологий из набора данных. Однако на данный момент я изо всех сил пытаюсь превратить это в фрейм данных или тому подобное.
В этот момент мои мысли сосредоточены на создании таблицы 15 x 15 с использованием списка заболеваемости. Который я хотел бы использовать для создания диаграммы радиальной сходимости. Тем не менее, я не знаю, как заполнить эту таблицу (или если это даже правильный подход ...).
Может ли кто-то дать мне толчок в правильном направлении, будь то кодирование или названиеэтого типа таблицы?
Original Kaggle;https://www.kaggle.com/nih-chest-xrays/data/kernels
Мой скрипт таким образом;
#Load data
df = pd.read_csv("Data_Entry_2017.csv")
#Filter data
df_filtered = df.iloc[:, 1:6]
df_filtered = df_filtered.drop(df_filtered.columns[[1,2]],axis=1)
#List findings
df_string = df_filtered['Finding Labels']
df_string.str.strip()
findings = []
for finding in df_string:
finding = finding.split('|')
for findingX in finding:
findings.append(findingX)
findingsSolo = list(set(findings))
#df from findings list
df_findings = pd.DataFrame(columns=findingsSolo, index=findingsSolo)