Разобрать и обработать HTML в PHP: получение метаданных плагина Wordpress с помощью скребка - PullRequest
0 голосов
/ 08 мая 2020

Как разобрать и обработать HTML в PHP - простой парсер

В настоящее время я работаю над синтаксическим анализатором, чтобы сделать небольшой предварительный просмотр страницы из URL-адреса, предоставленного пользователем в PHP.

Я хотел бы получить только заголовок страницы и небольшой фрагмент информации (фрагмент текста)

Проект : для список метаданных популярных плагинов Wordpress (см. https://de.wordpress.org/plugins/browse/popular/ и сбор первых 50 URL-адресов - это 50 плагинов, которые представляют интерес! Задача: я хочу получить метаданные все существующие плагины. То, что я впоследствии хочу отфильтровать после выборки, - это те плагины с новейшей меткой времени, которые обновляются (самые) недавно. Это все aobut acutality ... see the info of one page with meta-text-info

so to take one page into consideration - fetching the meta-data of one Wordpress-plugin: With simple_html_dom ( http://simplehtmldom.sourceforge.net/) Я предполагаю, что есть подходящий способ и способ сделать это без каких-либо других внешних библиотек / классов. До сих пор я также пробовал использовать обычные классы (DOM) -DOCDocument http://docs.php.net/manual/en/domdocument.loadhtml.php), загружая HTML и отображая его на экране, и теперь я думаю о том, как это сделать. . Я считаю simple_html_dom (http://simplehtmldom.sourceforge.net/) для этого. Это будет очень легко. Вот пример того, как вытащить заголовок и метатекст (описание).

<?php
require 'simple_html_dom.php';

$html = file_get_html('https://wordpress.org/plugins/wp-job-manager/');
$title = $html->find ("h1", class_="plugin-title").text];
$text  = $html->find(class_="entry-meta").text];

echo $title->plaintext."<br>\n";
echo $texte->text;
?>

см. источник : https://wordpress.org/plugins/wp-job-manager/ мы имеем следующий набор метаданных для каждого плагина wordpress:

Version: 1.9.5.12 
installations: 10,000+    
WordPress Version: 5.0 or higher 
Tested up to: 5.4 PHP  
Version: 5.6 or higher    
Tags 3 Tags: database member sign-up form volunteer
Last updated: 19 hours ago
plugin-ratings

проект состоит из двух частей: часть цикла: цикл по этому URL-адресу https://de.wordpress.org/plugins/browse/popular/ и собирает от 50 до 80 URL (что кажется довольно простым). часть парсера: где у меня есть некоторые проблемы - чтобы правильно получить данные для тегов и рейтинг плагина ...

update: api плагинов. здесь может помочь - отличный подход cf Получение списка ВСЕХ плагинов

...