Я новичок в nlp и spaCy , и я работаю над проектом по извлечению имен людей и компаний из визитных карточек.
Для извлечения текста я использую приличную функцию оптического распознавания текста, которая дает мне что-то вроде этого:
Sunny J. Mistry
Product Design Engineer
Apple
5 Infinite Loop, MS 305-1PH
Cupertino, CA 95014
T 408 974-5339
M 925 548-4585
sjmistry@apple.com
www.apple.com
Сначала я пытался обрабатывать строку за строкой, используя для задания английское NER по умолчанию, и вскоре понял, что этого недостаточно.
В конце концов я решил создать свой собственный NER, который будет обучаться с информацией о позиции текста.
Я не нашел никакой информации в официальной документации о том, как добавить пользовательские функции для данных обучения, таких как номера строк, но я нашел этот ответ и пример из Мэтью Хоннибал , который предложил использовать многозадачную цель для обучения модели с функцией костюма.
Я все еще не уверен:
Как должны выглядеть данные тренировок?
Как использовать API spaCy для добавления пользовательской функции в тренировочный процесс?
Является ли многозадачный объект правильным инструментом для обучения такого рода модели?