Создание пользовательского местоположения c NER с использованием SpaCy - PullRequest
0 голосов
/ 17 января 2020

Итак, я создаю систему, в которой мне нужно иметь возможность получать информацию о местонахождении квитанций о ресторанах / продуктовых магазинах, которые были обработаны с помощью OCR (поэтому я работаю с необработанным текстом) по всему миру.

Я решил использовать NER-движок SpaCy для определения местоположения. Тем не менее, существующая модель en_core_web_sm хороша только для обнаружения ограниченного набора местоположений (GPE как они называются), таких как New York и Washington, et c ... что является ожидаемым так как он был обучен на наборе данных, включающем трансляцию новостей, et c.

Теперь у меня есть набор данных, где у меня есть информация о ресторанах, расположенных в разных городах. Первый column содержит информацию о полном address, а второй - city. Например,

restaurant address

В настоящее время меня интересует только определение местоположения до уровня города (не ниже этого уровня). Вот почему я заинтересован в дальнейшем обучении моей spaCy модели.

Мой вопрос:

Можно ли использовать существующую модель pre-trained (en_core_web_sm в моем случае) что было бы хорошо настроено, когда я буду тренировать его, используя приведенный выше набор данных?

...