W3 Validator Api для загрузки файлов / прямого ввода
28 марта 2019

Я пытаюсь использовать http://validator.w3.org/nu/ API для прямого ввода через метод POST.


Это то, что я пытался, но не получилось

class frontend {
    public static function file_get_contents_curl($url)
        $ch = curl_init();

        curl_setopt($ch, CURLOPT_HEADER, 0);
        $user_agent = self::random_user_agent();
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        if (strpos($url, 'https') !== false) {
            curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        $data = curl_exec($ch);
        return $data;
$domain = 'yahoo.com';
$url = 'https://'.$domain;
$html = frontend::file_get_contents_curl($url);
$doc = new DOMDocument;
$html_file_output = $domain.'.html';
$dir = $_SERVER['DOCUMENT_ROOT'].'/tmp/';
if(!file_exists($dir)) {
$file_path = $dir.$html_file_output;
var_dump($file_path); // the filepath where the file is saved /www.domain.com/tmp/html_file.html
$url_validator = 'http://validator.w3.org/nu/';
$query = [
    'out' => 'json',
    'content' => $html // the HTML resulting from $url variable %3C%21DOCTYPE+html%3E%0....
    //'content' => $file_path tried also => /www.domain.com/tmp/the_file.html
$query_string = http_build_query($query);
var_dump($query_string); // returns string 'out=json&content=doctype html....' or 'out=json&content=F:/SERVER/www/www.domain.com/tmp/yahoo.com.html'
$ch = curl_init();
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $query_string);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$str_html = curl_exec($ch);
$data = json_decode($str_html); 
var_dump($data); // returns null

1 Ответ

04 апреля 2019

Во-первых, API "прямого ввода" принимает POST-запросы только в формате multipart/form-data, но когда вы запускаете его через http_build_query(), вы конвертируете его в application/x-www-form-urlencoded -формат, который этот API не понимает. , (дать CURLOPT_POSTFIELDS массив, и он автоматически преобразуется в multipart/form-data)

во-вторых, этот API блокирует запросы, в которых отсутствует заголовок User-Agent, а libcurl не имеет UA по умолчанию (curl в программе cli, но libcurl - нет), поэтому вы должны предоставить его самостоятельно, но это не так.

... исправление этих 2 и добавление простого разбора сообщения об ошибке,

<!DOCTYPE html>
<html lang="">
    CURLOPT_USERAGENT=>'PHP/'.PHP_VERSION.' libcurl/'.(curl_version()['version']),
$xp=new DOMXPath($domd);
foreach($xp->query("//*[@class='error']",$res) as $message){


array(1) {
  array(4) {
    string(156) "Error: Saw < when expecting an attribute name. Probable cause: Missing > immediately before.At line 6, column 1</head><ERR&ORâ©<body>â©<p></p>â©"
    string(254) "Error: Element err&or not allowed as child of element body in this context. (Suppressing further errors from this subtree.)From line 5, column 8; to line 6, column 6e>â©</head><ERR&ORâ©<body>â©<p></Content model for element body:Flow content."
    string(144) "Error: End tag for  body seen, but there were unclosed elements.From line 8, column 1; to line 8, column 7>â©<p></p>â©</body>â©</htm"
    string(118) "Error: Unclosed element err&or.From line 5, column 8; to line 6, column 6e>â©</head><ERR&ORâ©<body>â©<p></"

... и проблемы с юникодом возникают из-за того, что набор символов по умолчанию в DOMDocument является .. idk, not-utf8, afaik. Нет хорошего способа установить набор символов по умолчанию с помощью DOMDocument, но вы можете взломать его, выполнив

$domd=@DOMDocument::loadHTML('<?xml encoding="UTF-8">'.$html);

что заставляет его печатать:

array(1) {
  array(4) {
    string(147) "Error: Saw < when expecting an attribute name. Probable cause: Missing > immediately before.At line 6, column 1</head><ERR&OR↩<body>↩<p></p>↩"
    string(245) "Error: Element err&or not allowed as child of element body in this context. (Suppressing further errors from this subtree.)From line 5, column 8; to line 6, column 6e>↩</head><ERR&OR↩<body>↩<p></Content model for element body:Flow content."
    string(135) "Error: End tag for  body seen, but there were unclosed elements.From line 8, column 1; to line 8, column 7>↩<p></p>↩</body>↩</htm"
    string(109) "Error: Unclosed element err&or.From line 5, column 8; to line 6, column 6e>↩</head><ERR&OR↩<body>↩<p></"

... что лучше , но все еще содержит стрелки, используемые на веб-странице, которые можно удалить с помощью

foreach($xp->query("//*[@class='lf']") as $remove){

что заставляет его печатать:

array(1) {
  array(4) {
    string(138) "Error: Saw < when expecting an attribute name. Probable cause: Missing > immediately before.At line 6, column 1</head><ERR&OR<body><p></p>"
    string(236) "Error: Element err&or not allowed as child of element body in this context. (Suppressing further errors from this subtree.)From line 5, column 8; to line 6, column 6e></head><ERR&OR<body><p></Content model for element body:Flow content."
    string(126) "Error: End tag for  body seen, but there were unclosed elements.From line 8, column 1; to line 8, column 7><p></p></body></htm"
    string(100) "Error: Unclosed element err&or.From line 5, column 8; to line 6, column 6e></head><ERR&OR<body><p></"