Алгоритм, чтобы узнать, является ли сайт блогом? - PullRequest
2 голосов
/ 04 декабря 2010

Это творческий: -)

Я буду регулярно получать список сотен новых URL-адресов и хочу выяснить, ссылаются ли они на блог или нет - точность от 80% до 95% будет достаточной.

Очевидно, мне нужно проанализировать HTML страницы - но как именно вы подходите к этому (например, метатеги, структурный анализ, сопоставление с образцом, машинное обучение ...)?

Ответы [ 3 ]

5 голосов
/ 04 декабря 2010

Я бы посмотрел на генератор <meta> тег для известных редакторов блогов. Например, вот как это выглядит для Wordpress:

<meta name="generator" content="WordPress.com" /> 
1 голос
/ 04 декабря 2010

Основываясь на решении Дарина, Я бы искал тег генератора <meta> для известных редакторов блогов и комбинировал бы его с таблицей поиска общих сайтов, т.е. WordPress.com, Blogspot.com, Livejournal.com и т. Д. Это должно дать вам 80-95% в ближайшем будущем, хотя оно не будет достаточно устойчивым для непрерывного процесса в течение длительного периода времени.

Расширенное решение намного сложнее, учитывая аморфное определение термина «блог». В этом случае вы захотите разбить список на его хостинг-сайт и определить характеристики и создать жесткие и быстрые правила для того, что составляет блог:

  • Размещено ли оно у провайдера блогов?
  • Указан ли он в агрегаторе блогов, таком как Technorati?
  • Включает ли он подобные блогу сервисы, такие как пользовательские статьи, теги и возможность комментирования?
  • Предоставляет ли она мета-информацию, которую я могу использовать, чтобы легко идентифицировать ее как блог?
  • В противном случае он идентифицирует себя как блог через включение термина "блог" или некоторых других критериев?

Я легко вижу нейронную сеть, созданную для определения, является ли страница блогом или нет, но это действительно выходит за рамки ваших требований. Я бы сказал, начните с простого, а затем расширьте ваше решение относительно предполагаемого срока службы вашей системы.

0 голосов
/ 15 сентября 2012

Приведенные выше предложения хороши и, вероятно, сработают, если вы стремитесь к точности на 80-90%.

Я бы пошел еще дальше и искал бы любой XML-канал RSS в любом метатеге.или как ссылка.Затем проверьте канал, чтобы увидеть, есть ли какие-либо теги комментариев (так как есть каналы для других целей).Я бы опускал это для определенных блоговых платформ, которые не дают вам такой канал, как Tumblr.

...