Как мне очистить любой сайт для создания канала для моего сайта?В каком формате следуют наиболее популярные сайты?
Я использую Octoparse (бесплатный веб-скребок) для доставки своевременной информации конечным пользователям.
Я использую его для очистки данных из нескольких источников данных и преобразования извлеченных данных в структурированные таблицы данных. Легко автоматически доставлять огромную своевременную информацию всем пользователям, которые подписались на ваш фид данных. Вы просто планируете задачу извлечения в Octoparse для автоматического сбора веб-данных и обогащения ваших приложений новейшим интернет-контентом.
Вам придется перепроектировать каждый веб-сайт, потому что они не следуют общему формату или чему-то другому (свобода веб-разработчика) Как насчет того, чтобы просто очистить их RSS-каналы?
Я не верю, что многие сайты ищут информацию, но если вы хотите, я бы выбрал RSS (Really Simple Syndication) Почти у каждого веб-сайта будет один, и очистка от этого легка. RSS 2.0 Спецификация
Брайан делает хороший пост о нескольких способах чтения RSS (в C #).
http://msdn.microsoft.com/en-us/library/bb943474.aspx http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx http://msdn.microsoft.com/en-us/library/bb943480.aspx
http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx
http://msdn.microsoft.com/en-us/library/bb943480.aspx
Здесь - это также некоторые веб-инструменты для создания одного канала из объединения нескольких других.
Цитируем список здесь:
RSS Mixer FeedBlendr FeedTwister BlogSieve RSSMesh RSS Mix BlastFeed Комбайн кормовой FrankenFeed Yahoo Pipes
Надеюсь, это поможет:)