Извлеките значение из текста, используя НЛП и Python - PullRequest
0 голосов
/ 12 марта 2020

как Python и новичок в базе данных Я также новичок в науке о данных. Тем не менее, есть задача, которую нужно решить, и я надеюсь, что кто-то может оказать мне небольшую помощь.

Я имею в виду этот набор данных https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset#COVID19_line_list_data .csv

Теперь я интересует колонка "резюме". Я хочу извлечь все те случаи, когда кто-то "импортировал корону". Примеры:

Первый подтвержденный импортированный пациент с пневмонией COVID-19 в Шэньчжэне (из Ухани): мужчина, 66 лет, житель Шэньчжэня, посетил родственников в Ухане 29.12.2009, симптомы начались 01/03/2020, вернулись в Шэньчжэ ...

Скорее всего, импортировано из Ухани

новый подтвержденный пациент с COVID-19 в Германии: 1/28 - № 1 мужчина, 33 года, пойман у китайского коллеги во время конференции в Мюнхене 1 / 20-1 / 21, первая передача от человека человеку в Европе, подтвержденная 27 января 202 года ...

Скорее всего, импортировано из Китая

новый подтвержденный пациент COVID-19 в Германии: мужчина, 32 года, Баден-Вюртемберг, , вернувшийся 2/23 из Кодоньо , Италия

Скорее всего, импортировано из Италии

Теперь я прочитал кое-что о spacey и тензорном потоке, но не смог найти статью, описывающую такую ​​задачу. Однако я мог бы найти эту страницу https://explosion.ai/demos/matcher, которая мне очень помогла поиграться с тегами на основе правил.

Но правила, основанные на правилах, не сильно помогают. Благодаря этому я могу найти информацию о стране в тексте, но не информацию о том, был ли пациент жителем этой конкретной страны или путешествовал ли он из этой страны в другую. И поскольку текст не является единообразным, я должен заглянуть внутрь самого предложения и не могу просто отфильтровать фразы.

Кто-нибудь может помочь?

Заранее спасибо!

...