Я хочу создать модель для автоматической c проверки текстового документа, если он создан на основе шаблона. Это не задача компьютерного зрения, поскольку документы могут иметь разное форматирование и будут иметь формат json. Кроме того, названия абзацев даже в одних и тех же шаблонах могут немного отличаться, но предварительно иметь одинаковое значение. Итак, я рассматриваю эту задачу как меру сходства текстов: один вход - шаблон, второй - документ. Затем используйте, например, doc2ve c или TF-IDF, чтобы получить векторное представление всего текста, измерить косинусное расстояние и подобрать некоторый порог. Но мне эта идея кажется немного корявой) Может быть, вы знаете какие-то другие изощренные подходы к подобным задачам?