Если я правильно понимаю, вы хотите, чтобы эвристик оценил количество комментариев на странице HTML, которая, как известно, является сообщением в блоге, да?
Очень часто в конкретном блоге есть некоторые функции, облегчающие работу. Если вы посмотрите на мой номер http://kstruct.com/, то увидите, что на всех страницах с комментариями написано «X-ответы», поэтому, если вы смогли выполнить какую-то работу для каждого блога, это, вероятно, не очень сложно.
Если вам нужно что-то общее, я думаю, что в комментариях есть несколько общих черт, которые вы можете обнаружить. С одной стороны, любые ссылки в них, скорее всего, будут иметь атрибуты rel = "nofollow", так что, видя, что внутри блока может подразумеваться, что это комментарий.
Основная интересная вещь, которую нужно искать, - это изменения в структуре постов на одном и том же сайте. Например, есть также очень хороший шанс, что у каждого комментария будет свой якорь, чтобы люди могли ссылаться на него напрямую, чтобы вы могли посмотреть на различное количество тегов на данной странице на той же странице. сайт, чтобы получить представление об относительном количестве комментариев.
Как указал Майкл Стум, если на страницах есть канал Comment-RSS, ваша жизнь станет намного проще, потому что вы можете получать данные комментариев в структурированном формате.
В целом, я думаю, что это будет довольно сложная проблема для решения в целом.