Как обучить модель spaCy с номером строки в качестве функции? - PullRequest
1 голос
/ 25 мая 2019

Я новичок в nlp и spaCy , и я работаю над проектом по извлечению имен людей и компаний из визитных карточек.

Для извлечения текста я использую приличную функцию оптического распознавания текста, которая дает мне что-то вроде этого:

Sunny J. Mistry
Product Design Engineer

Apple
5 Infinite Loop, MS 305-1PH
Cupertino, CA 95014

T 408 974-5339
M 925 548-4585
sjmistry@apple.com
www.apple.com

Сначала я пытался обрабатывать строку за строкой, используя для задания английское NER по умолчанию, и вскоре понял, что этого недостаточно.

В конце концов я решил создать свой собственный NER, который будет обучаться с информацией о позиции текста.

Я не нашел никакой информации в официальной документации о том, как добавить пользовательские функции для данных обучения, таких как номера строк, но я нашел этот ответ и пример из Мэтью Хоннибал , который предложил использовать многозадачную цель для обучения модели с функцией костюма.

Я все еще не уверен:

  1. Как должны выглядеть данные тренировок?

  2. Как использовать API spaCy для добавления пользовательской функции в тренировочный процесс?

  3. Является ли многозадачный объект правильным инструментом для обучения такого рода модели?

1 Ответ

0 голосов
/ 02 июля 2019

Отвечая на мой собственный вопрос:

Я не нашел официального способа реализации такого рода задач, но в итоге я решил обучить модель на обычном наборе данных визитных карточек, содержащем 200 изображений.Я извлек текст из каждого изображения с помощью Google OCR и аннотировал его с помощью инструмента, описанного в этом сообщении.

Он работал как шарм.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...