Как очистить грязный атрибут «Страна» от опубликованных экстрактов био python? - PullRequest
1 голос
/ 27 апреля 2020

Я извлек ~ 60 000 тезисов PubMed в кадр данных, используя Bio python. К атрибутам относятся «Авторы», «Заголовок», «Год», «Журнал», «Страна» и «Аннотация». Атрибут «Страна» очень грязный, со смесью стран, городов, названий, адресов, произвольных текстов (например, «внештатный журналист, интересующийся норвежской наукой»), факультетов и т. Д. c. Я хочу очистить столбец только для того, чтобы он содержал страну - и "NA" для тех записей, в которых отсутствует запись, или у которых есть элемент свободного текста, который не имеет смысла.

В настоящее время моя чистая Процесс создания этого столбца очень громоздкий:

pub = df['Country']
chicago = pub.str.contains('Chicago')
df['Country'] = np.where(chicago, 'USA', pub.str.replace('-', ' '))
au = pub.str.contains('@edu.au')
df['Country'] = np.where(au, 'Australia', pub.str.replace('-', ' '))
... and so on

Вам известны некоторые библиотеки python или есть идеи по более автоматизированному способу очистки этого столбца?

...