Sharepoint поиск по внешним RSS-каналам - PullRequest
2 голосов
/ 09 июня 2009

Я хочу, чтобы мой сайт sharepoint позволял пользователю выполнять поиск контента в известной коллекции RSS-каналов. Я думаю, концептуально несколько способов сделать это

  • сканировать каналы по источнику (Yikes!)
  • Потяните полные статьи на мой сайт sharepoint, затем пусть мой сканер просканирует его
  • Использовать существующий индекс (например, Google)
  • поиск в полных статьях по запросу, используя что-то вроде утилиты Google (мои предпочтения)

Так что я могу как-то с моего сайта sharepoint позволить пользователю искать полные статьи из пары десятков именованных каналов rss

спасибо

Cary

Ответы [ 2 ]

1 голос
/ 09 июня 2009

Не понимаю, почему возникает проблема с сканированием каналов в их источнике? Это может показаться разумным.

Довольно легко создать источник контента, чтобы он указывал на канал и выбирал правильное расписание индексации. Если это не сработает, вы можете попробовать более сложный подход.

Имейте в виду, что копирование контента другого веб-сайта для размещения самостоятельно может иметь последствия для авторского права (не слишком упоминать риск того, что любой подстрекательский контент может появиться на вашем сайте).

- обновление -

Попробуйте прочитать целевые сайты robots.txt, чтобы узнать, имеет ли он (хотя бы один) желаемую частоту. В противном случае это зависит от глубины сайта, который вы будете сканировать.

Если вы сканируете только RSS-канал RSS, я подозреваю, что вы можете делать это каждый час, не раздражая никого. В противном случае, если вы дойдете до каждой статьи, вы можете ограничить это. Это действительно сильно зависит от ваших отношений с целевым сайтом и типом сайта, на который вы заходите.

Оформить заказ в этой статье , чтобы немного больше узнать о том, как SharePoint работает с robots.txt

(p.s. Целевой сайт не размещал статьи в Интернете, чтобы никто не читал их)

0 голосов
/ 22 июля 2009

Готовый сканер будет уважать robots.txt, и есть положения для правил воздействия сканера, которые уменьшат вероятность того, что SharePoint выполнит сокращение на внешнем сайте.

...