извлечь полный контент сайтов через канал в php - PullRequest
2 голосов
/ 06 февраля 2012

Я хочу получить полный контент новостей или постов сайта через фид. но мы знаем, что многие веб-сайты представляют только часть новостей или сообщений через свои каналы.
Конечно, я знаю, что существует скрипт с именем SimplePie, который разработан для получения контента сайтов через фид. но этот скрипт не получает полное содержание новости.
Конечно, я нашел скрипт под названием Full-Text Feeds, который делает это. но это не бесплатно. я хочу бесплатный скрипт.
Знаете ли вы похожий сценарий или способ сделать мою нужду?

Ответы [ 3 ]

9 голосов
/ 06 февраля 2012

Код для извлечения контента Five Filters на самом деле с открытым исходным кодом и основан на оригинальном JavaScript-коде Readability (до того, как он стал сервисом).

Вы должны использовать его следующим образом:

$page = file_get_contents($item_url);
$readability = new Readability($page);
if ($result = $readability->init()) {
    $content = $readability->getContent()->innerHTML;
}
0 голосов
/ 06 февраля 2012

Не совсем уверен, что вы пытаетесь сделать здесь, но это может вам помочь:

$full_page_content = file_get_contents('http://www.example.com/');

Редактировать: Хорошо, если я вас правильно понимаю, вам нужно будет сделать что-то вроде этого:

Get rss feed
Use SimplePie or something like it to go through each feed item
For each item in RSS feed
  Get the item's url
  Get the content from that URL
  Strip out the HTML/extract only the text you need
Combine all of these into a new RSS feed and send that to the user

Примечание: это не так просто. Существует причина, по которой Full-Text RSS может взимать плату за свой продукт.

0 голосов
/ 06 февраля 2012

Вы можете использовать http://magpierss.sourceforge.net/cookbook.shtml (бесплатно)

Получает RSS-каналы.Есть много-много PHP-скриптов, которые делают это в Интернете ... Google si ваш друг!:)

...