Проверка релевантности текстового содержимого - PullRequest
0 голосов
/ 03 ноября 2018

Amazon.in pic

Мне нужно проверить актуальность контента на определенной веб-странице. У меня тысячи веб-страницы, чтобы проверить это. Каков наилучший способ проверить, соответствует ли заголовок страницы содержимому страницы.

1 Ответ

0 голосов
/ 05 ноября 2018

Ваш вопрос немного расплывчат, когда вы говорите:

Как лучше всего проверить, соответствует ли заголовок страницы содержание на странице.

Как определяется значение в контексте вашей проблемы?

Я не знаю, хотите ли вы этого, но мне в голову приходит пара вещей, которые по сути сравнивают, насколько похожи два документа: один документ является заголовком, а другой - описанием.

Вы можете подумать о методах генерации векторных представлений для обоих и сравнить, насколько они похожи.

  1. Сходство Жакара с использованием жетонов в качестве элементов обоих наборов (т. Е. Документов)
  2. взвешенные векторы TF-IDF и сравнение их с косинусным сходством
  3. Рассчитать модель темы распространения / LDA для каждого документа и сравнить их, используя расхождение Kullback-Leibler
  4. Закодируйте документы в какой-нибудь плотный вектор (doc2vec или прочитайте их через LSTM и сохраните последнее состояние), а затем сравните оба вектора.

Единственное соображение заключается в том, что размер заголовка очень мал по сравнению с содержанием веб-страницы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...