Как я могу сравнить содержимое двух файлов разных типов? - PullRequest
0 голосов
/ 21 июля 2011

У меня есть несколько документов в формате MHTML и в формате pdf. Я хочу знать, является ли содержание одинаковым или нет в MHTML и PDF. Как я могу сравнить разницу?

1 Ответ

3 голосов
/ 21 июля 2011

Вам потребуется анализатор MHTML, а также библиотека анализатора PDF. Затем вы параллельно просматриваете оба документа и сравниваете их содержимое. Не то чтобы это определенно было нетривиальным делом, поскольку вам нужно будет построить систему отображения между элементами в разных форматах файлов.

Если вы хотите принять во внимание, что контент может быть написан по-разному (например, таблицы и вкладки) и при этом выглядеть точно так же, для пользователя все становится очень сложно.

Мое понимание того, как вы задаете свои вопросы, заключается в том, что этот проект намного больше и сложнее, чем вы готовы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...