Ваш вопрос немного расплывчат, когда вы говорите:
Как лучше всего проверить, соответствует ли заголовок страницы
содержание на странице.
Как определяется значение в контексте вашей проблемы?
Я не знаю, хотите ли вы этого, но мне в голову приходит пара вещей, которые по сути сравнивают, насколько похожи два документа: один документ является заголовком, а другой - описанием.
Вы можете подумать о методах генерации векторных представлений для обоих и сравнить, насколько они похожи.
- Сходство Жакара с использованием жетонов в качестве элементов обоих наборов (т. Е. Документов)
- взвешенные векторы TF-IDF и сравнение их с косинусным сходством
- Рассчитать модель темы распространения / LDA для каждого документа и сравнить их, используя расхождение Kullback-Leibler
- Закодируйте документы в какой-нибудь плотный вектор (doc2vec или прочитайте их через LSTM и сохраните последнее состояние), а затем сравните оба вектора.
Единственное соображение заключается в том, что размер заголовка очень мал по сравнению с содержанием веб-страницы.