У меня есть электронная таблица, которая выглядит следующим образом (около 1800 строк), она сгенерирована из скрипта Python, извлекающего информацию из базы данных Access:
ID Chemical Association Term
1 1,1-Dichloroethene exactMatch 1,1-Dichloroethylene
1 1,1-Dichloroethene exactMatch Vinylidene Chloride
2 1,2 Epoxyethane exactMatch Ethylene oxide
2 1,2 Epoxyethane exactMatch Ethylene oxide (1,2 Epoxyethane)
Я хочу использовать, вероятно, панд для изменениямакет этой таблицы.Я хочу создать таблицу, подобную этой:
ID Chemical Association Term (new column)
1 1,1-Dichloroethene exactMatch 1,1-Dichloroethylene Vinylidene Chloride
2 1,2 Epoxyethane exactMatch Ethylene oxide (1... Ethylene oxide
Я уже написал следующее, используя панд, но не уверен, что делать дальше:
data = pd.read_excel('Chemicals_exactMatch.xlsx', sheet_name='Sheet1')
df = pd.DataFrame(data)
grp = df.groupby(['ID','Chemical','Association'])
Я предполагаю следующеезаявления должны быть включены в это, но я не уверен, как:
df.apply(lambda grouped: grouped['Term'].str.cat(sep="|"))
df.str.split(pat="|")