Это открытый вопрос. Я постараюсь сделать это немного более конкретным c.
Мы работаем над проектом по извлечению мест изобретателей из патентных текстов (см. https://github.com/Antoberge/patent_city). До сих пор мы использовали комбинацию совпадений фраз spaCy, сопоставителей на основе правил и NER (GPE). Это уже дает хорошие результаты, но мы не можем различить guish между двумя различными последовательностями адресов, например, когда есть 2 или более изобретателей.
Вот несколько примеров, которые должны помочь понять настройки.
- Случай с 1 изобретателем:
Расписание, указанное в этих письмах Запатентовать и сделать так же. Всем, кому он может быть раком. N Знайте, что я, Джаред А. Эйрс из Хартфорда, в county of Hartford and State of
Connecticut [ADDRESS]
, изобрел некоторые новые и полезные улучшения в методе поднятия воды; и я настоящим заявляю, что следующее является полным, ясным и точным описанием
- Случай с двумя изобретателями
Известно, что мы УИЛЬЯМ Ф. ГУДВИН из city and county of
Wasl1ington,'and District of Columbia [ADDRESS]
и АРТУР У. БРАУН из city of Brooklyn, Kings county, State of New York
[ADDRESS]
изобрели некоторые новые и полезные усовершенствования в механизме для работы граблей; и тем самым мы объявляем следующее, чтобы быть полным, ясным и точным описанием
Я вижу 2 варианта:
- Применение существующего решения с открытым исходным кодом : до сих пор я не нашел какой-либо современной внеплановой реализации для такой задачи по маркировке последовательности. Я мог пропустить это. Любая идея приветствуется
- Обучите конкретную c модель маркировки последовательности : из того, что я вижу из документации spaCy, spaCy NER, кажется, посвящен отдельным объектам, пока выполняется последовательность ADDRESS из нескольких лиц. Вот почему я думал о модели условного случайного поля, но не смог найти хороший способ реализовать ее в Python - предположить, что это может быть устаревшее решение (?). Я мог пропустить это. Любые предложения (потенциально по существующим альтернативам приветствуются)
Любые идеи по этим двум или третьим вариантам приветствуются.
Ура!