Как автоматически извлекать контент с других сайтов? - PullRequest
0 голосов
/ 15 февраля 2010

Я хочу извлечь конкретные данные с веб-сайта из его страниц ...

Я не хочу получать все содержимое конкретной страницы, но мне нужна только некоторая часть (данные могут быть только внутриtable или content_div), и я хочу сделать это несколько раз на всех страницах веб-сайта ..

Как я могу это сделать?

Ответы [ 5 ]

1 голос
/ 15 февраля 2010

«извлечение контента из других веб-сайтов» называется очисткой экрана или очисткой веб-страниц .

простой html dom-парсер - это самый простой (я знаю) способ сделать это.

1 голос
/ 15 февраля 2010

Используйте curl для получения содержимого и xPath для выбора отдельных элементов.

Знайте об авторских правах.

0 голосов
/ 15 февраля 2010

Я думаю, вам нужно реализовать что-то вроде паука. Вы можете сделать запрос XMLHTTP и получить содержимое, а затем выполнить анализ.

0 голосов
/ 15 февраля 2010

Есть способы сделать это. Просто для развлечения я создал приложение для Windows, которое просматривало мой аккаунт в известной социальной сети, просматривало правильные места и записывало информацию в XML-файл. Эта информация будет затем импортирована в другое место. Однако такого рода приложения можно использовать по мотивам, с которыми я не согласен, поэтому я никогда не загружал это.

Я бы рекомендовал использовать RSS-каналы для извлечения контента.

0 голосов
/ 15 февраля 2010

Вам нужен php crawler . Ключ должен использовать функции манипуляции со строками, такие как strstr, strpos и substr.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...