Модель для сравнения текста с шаблоном (NLP) - PullRequest
0 голосов
/ 06 августа 2020

Я хочу создать модель для автоматической c проверки текстового документа, если он создан на основе шаблона. Это не задача компьютерного зрения, поскольку документы могут иметь разное форматирование и будут иметь формат json. Кроме того, названия абзацев даже в одних и тех же шаблонах могут немного отличаться, но предварительно иметь одинаковое значение. Итак, я рассматриваю эту задачу как меру сходства текстов: один вход - шаблон, второй - документ. Затем используйте, например, doc2ve c или TF-IDF, чтобы получить векторное представление всего текста, измерить косинусное расстояние и подобрать некоторый порог. Но мне эта идея кажется немного корявой) Может быть, вы знаете какие-то другие изощренные подходы к подобным задачам?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...