Должен ли я разделить документ на блоки текста для классификации документов? - PullRequest
0 голосов
/ 20 октября 2019

Я имею дело с огромными финансовыми контрактными документами. Моя потребность состоит в том, чтобы классифицировать документ на основе определенного «предложения», присутствующего или нет.

Мой контрактный документ очень большой, скажем, 40-страничный PDF-файл. Мой пункт, который необходимо обучить, находится на некоторой странице -x ". Обратите внимание, что" x "отличается в разных документах в зависимости от поставщика. Также x может быть разделен на две страницы в одном документе.

Мой вопроскогда я тренирую классификатор документов, мне нужно тренироваться только с текстом, который находится на странице x, или текст будет разбит на страницы (x1, x2, x3) или. со всем текстом (на всех страницах)

Если мне потребуется слишком обучить свой классификатор документов всем текстом или подразделом текстов, представляющих предложение.

Во время прогнозирования я вынужден предоставить полный текст документа. Будет ли классификатор работать, если ядождь шел как отдельные куски?

...