Я хочу использовать PHP (возможно, с Curl / XPath?) Для извлечения данных со страниц Википедии. Каков будет лучший способ пойти по этому поводу? Я буду использовать CakePHP для этого проекта, хотя сначала нужно выяснить, как заставить это работать.
Вы можете получить некоторые данные с помощью этой функции PHP, которая использует CURL:
http://www.barattalo.it/2010/08/29/php-bot-to-get-wikipedia-definitions/
Вы можете скачать снимки базы данных википедии и обработать их в собственном дисковом пространстве. Это альтернативное, возможно, лучшее решение.
Снимки базы данных Википедии вы можете найти по адресу: http://dumps.wikimedia.org/
Несколько вариантов: (Поиск в Google для них) 1. DBPedia 2. Freebase Wikipedia Extracs (WEX) 3. Также есть набор ссылок Wikipedia
Об этом уже спрашивали, см. Существует ли API Википедии? , где перечислены несколько вариантов взаимодействия с Википедией.