Соскоб в Интернете (формат HTML популярных сайтов) - PullRequest
0 голосов
/ 03 ноября 2010

Как мне очистить любой сайт для создания канала для моего сайта?В каком формате следуют наиболее популярные сайты?

Ответы [ 3 ]

1 голос
/ 09 августа 2016

Я использую Octoparse (бесплатный веб-скребок) для доставки своевременной информации конечным пользователям.

Я использую его для очистки данных из нескольких источников данных и преобразования извлеченных данных в структурированные таблицы данных. Легко автоматически доставлять огромную своевременную информацию всем пользователям, которые подписались на ваш фид данных. Вы просто планируете задачу извлечения в Octoparse для автоматического сбора веб-данных и обогащения ваших приложений новейшим интернет-контентом.

1 голос
/ 03 ноября 2010

Вам придется перепроектировать каждый веб-сайт, потому что они не следуют общему формату или чему-то другому (свобода веб-разработчика) Как насчет того, чтобы просто очистить их RSS-каналы?

0 голосов
/ 03 ноября 2010

Я не верю, что многие сайты ищут информацию, но если вы хотите, я бы выбрал RSS (Really Simple Syndication) Почти у каждого веб-сайта будет один, и очистка от этого легка. RSS 2.0 Спецификация

Брайан делает хороший пост о нескольких способах чтения RSS (в C #).

http://msdn.microsoft.com/en-us/library/bb943474.aspx

http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx

http://msdn.microsoft.com/en-us/library/bb943480.aspx

Здесь - это также некоторые веб-инструменты для создания одного канала из объединения нескольких других.

Цитируем список здесь:

  1. RSS Mixer
  2. FeedBlendr
  3. FeedTwister
  4. BlogSieve
  5. RSSMesh
  6. RSS Mix
  7. BlastFeed
  8. Комбайн кормовой
  9. FrankenFeed
  10. Yahoo Pipes

Надеюсь, это поможет:)

...