Вам потребуется анализатор MHTML, а также библиотека анализатора PDF. Затем вы параллельно просматриваете оба документа и сравниваете их содержимое. Не то чтобы это определенно было нетривиальным делом, поскольку вам нужно будет построить систему отображения между элементами в разных форматах файлов.
Если вы хотите принять во внимание, что контент может быть написан по-разному (например, таблицы и вкладки) и при этом выглядеть точно так же, для пользователя все становится очень сложно.
Мое понимание того, как вы задаете свои вопросы, заключается в том, что этот проект намного больше и сложнее, чем вы готовы.