Как правильно подготовить данные для обучения работе с Google Natural Language? - PullRequest
0 голосов
/ 28 мая 2020

Я получаю строительный документ в виде PDF с несколькими различными типами документов в PDF. т.е. титульный лист, список материалов, инструкции по сборке, проектные карты и т. д. различные типы документов? Будет ли модель запутана, если я тренируюсь с разделенными документами, но PDF-файл, который проходит через модель, содержит несколько типов документов? Или, наоборот, если я использую для обучения полный PDF-файл, а затем только один документ для модели, распознает ли он этот документ или не увидит весь пакет и подумает, что это не то, что он знает?

В идеале я хотел бы иметь возможность отправлять в модель один или несколько типов документов в виде одной текстовой строки и получать обратно результаты меток для всех типов документов, которые были включены.

Кроме того, просто чтобы подтвердить, что я понимаю, как работают результаты. Если, скажем, одна метка была «адресом», и адрес появился в 3 типах документов (например, титульный лист, карта дизайна и инструкции по сборке), модель вернет этот адрес 3 раза в массиве под адресом метки (при условии, что он правильно идентифицирован. это на каждом документе), правильно?

...