Question

Я извлек ~ 60 000 тезисов PubMed в кадр данных, используя Bio python. К атрибутам относятся «Авторы», «Заголовок», «Год», «Журнал», «Страна» и «Аннотация». Атрибут «Страна» очень грязный, со смесью стран, городов, названий, адресов, произвольных текстов (например, «внештатный журналист, интересующийся норвежской наукой»), факультетов и т. Д. c. Я хочу очистить столбец только для того, чтобы он содержал страну - и "NA" для тех записей, в которых отсутствует запись, или у которых есть элемент свободного текста, который не имеет смысла.

В настоящее время моя чистая Процесс создания этого столбца очень громоздкий:

pub = df['Country']
chicago = pub.str.contains('Chicago')
df['Country'] = np.where(chicago, 'USA', pub.str.replace('-', ' '))
au = pub.str.contains('@edu.au')
df['Country'] = np.where(au, 'Australia', pub.str.replace('-', ' '))
... and so on

Вам известны некоторые библиотеки python или есть идеи по более автоматизированному способу очистки этого столбца?

Как очистить грязный атрибут «Страна» от опубликованных экстрактов био python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как очистить грязный атрибут «Страна» от опубликованных экстрактов био python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы