Извлечь последовательность адресов из неструктурированного текста - PullRequest
0 голосов
/ 26 февраля 2020

Это открытый вопрос. Я постараюсь сделать это немного более конкретным c.

Мы работаем над проектом по извлечению мест изобретателей из патентных текстов (см. https://github.com/Antoberge/patent_city). До сих пор мы использовали комбинацию совпадений фраз spaCy, сопоставителей на основе правил и NER (GPE). Это уже дает хорошие результаты, но мы не можем различить guish между двумя различными последовательностями адресов, например, когда есть 2 или более изобретателей.

Вот несколько примеров, которые должны помочь понять настройки.

  • Случай с 1 изобретателем:

Расписание, указанное в этих письмах Запатентовать и сделать так же. Всем, кому он может быть раком. N Знайте, что я, Джаред А. Эйрс из Хартфорда, в county of Hartford and State of Connecticut [ADDRESS], изобрел некоторые новые и полезные улучшения в методе поднятия воды; и я настоящим заявляю, что следующее является полным, ясным и точным описанием

  • Случай с двумя изобретателями

Известно, что мы УИЛЬЯМ Ф. ГУДВИН из city and county of Wasl1ington,'and District of Columbia [ADDRESS] и АРТУР У. БРАУН из city of Brooklyn, Kings county, State of New York [ADDRESS] изобрели некоторые новые и полезные усовершенствования в механизме для работы граблей; и тем самым мы объявляем следующее, чтобы быть полным, ясным и точным описанием

Я вижу 2 варианта:

  • Применение существующего решения с открытым исходным кодом : до сих пор я не нашел какой-либо современной внеплановой реализации для такой задачи по маркировке последовательности. Я мог пропустить это. Любая идея приветствуется
  • Обучите конкретную c модель маркировки последовательности : из того, что я вижу из документации spaCy, spaCy NER, кажется, посвящен отдельным объектам, пока выполняется последовательность ADDRESS из нескольких лиц. Вот почему я думал о модели условного случайного поля, но не смог найти хороший способ реализовать ее в Python - предположить, что это может быть устаревшее решение (?). Я мог пропустить это. Любые предложения (потенциально по существующим альтернативам приветствуются)

Любые идеи по этим двум или третьим вариантам приветствуются.

Ура!

...