Я пытаюсь упорядочить географическую информацию, содержащуюся в 4 столбцах Pandas DataFrame, чтобы административные подразделения одного и того же вида постоянно сохранялись в одном и том же столбце.
Я построил 5 списков строк, содержащих информациюо 5 географических уровнях, которые я хотел бы сохранить.
Я пытался заполнить непротиворечивые столбцы, сравнивая оригинальные 4 непоследовательных столбца с моими 5 непротиворечивыми списками, но присутствие значений nan в исходных столбцах также вызывает ошибки вмой код или возвращает слишком много nans в столбцах результата. Ниже приведен пример минимального кода.
import pandas as pd
df = pd.DataFrame (np.array([['nan', 'Rome', 'Civitavecchia'],
['Asti', 'nan', 'Piedmont'],
['Bozen', 'Sudtirol', 'nan']]),
columns=['a','b','c'])
town = ['Civitavecchia']
province = ['Rome', 'Asti', 'Bozen']
region = ['Piedmont', 'Sudtirol']
#first attempt returns a ValueError: pattern contains no capture groups:
df['a'].str.extractall ('|'.join(town))#
#second attempt:
#this only yields two out of six not-nan results expected
df['geo1'] = np.where(df.a.isin(town), df.a, np.nan)
df['geo1'] = np.where(df.b.isin(town), df.b, np.nan)
df['geo1'] = np.where(df.c.isin(town), df.c, np.nan)
df['geo2'] = np.where(df.a.isin(province), df.a, np.nan)
df['geo2'] = np.where(df.b.isin(province), df.b, np.nan)
df['geo2'] = np.where(df.c.isin(province), df.c, np.nan)
df['geo3'] = np.where(df.a.isin(region), df.a, np.nan)
df['geo3'] = np.where(df.b.isin(region), df.b, np.nan)
df['geo3'] = np.where(df.c.isin(region), df.c, np.nan)
dftarget = pd.DataFrame (np.array([['Civitavecchia', 'Rome', 'nan'],
['nan', 'Asti', 'Piedmont'],
['nan', 'Bozen', 'Sudtirol']]),
columns=['geo1','geo2','geo3'])
Вывод, к которому я стремлюсь, описан в dftarget