Я смотрю на вещи, которые могут отличить блог от обычного сайта.Это те вещи, которые программа должна уметь идентифицировать по HTML веб-сайта или по отдельным функциям, которые поддерживает сайт.Например,свистит.То же самое относится и к новостным веб-сайтам.
Я работаю над программой наблюдения за блогами / новостями, и она будет индексировать сайты, чтобы автоматически определять, является ли это блогом или новостным сайтом, а затем отслеживать отзывы пользователей в комментариях и т. Д. В сообщенияхс сайтов, которые он определяет как блог или новость.
Итак, что мне действительно нужно, так это предложения о том, что я могу использовать или искать при идентификации этих сайтов.
Этобудет настольным приложением, написанным на Java, так что если у вас есть какие-либо особенности кода в Java, это будет здорово.
заранее спасибо