Основываясь на решении Дарина, Я бы искал тег генератора <meta>
для известных редакторов блогов и комбинировал бы его с таблицей поиска общих сайтов, т.е. WordPress.com
, Blogspot.com
, Livejournal.com
и т. Д. Это должно дать вам 80-95% в ближайшем будущем, хотя оно не будет достаточно устойчивым для непрерывного процесса в течение длительного периода времени.
Расширенное решение намного сложнее, учитывая аморфное определение термина «блог». В этом случае вы захотите разбить список на его хостинг-сайт и определить характеристики и создать жесткие и быстрые правила для того, что составляет блог:
- Размещено ли оно у провайдера блогов?
- Указан ли он в агрегаторе блогов, таком как Technorati?
- Включает ли он подобные блогу сервисы, такие как пользовательские статьи, теги и возможность комментирования?
- Предоставляет ли она мета-информацию, которую я могу использовать, чтобы легко идентифицировать ее как блог?
- В противном случае он идентифицирует себя как блог через включение термина "блог" или некоторых других критериев?
Я легко вижу нейронную сеть, созданную для определения, является ли страница блогом или нет, но это действительно выходит за рамки ваших требований. Я бы сказал, начните с простого, а затем расширьте ваше решение относительно предполагаемого срока службы вашей системы.