Как очистить не HTML-страницу, используя рентген - PullRequest
0 голосов
/ 29 мая 2019

Я пытаюсь очистить веб-страницу для моего приложения. Проблема в том, что веб-страница, которую я пытаюсь очистить, не является HTML. у него есть обычная текстовая страница. Как мне поцарапать такую ​​страницу с помощью узла js x-ray. Страница, которую я пытаюсь очистить, содержит содержимое в теге PRE.

Пробовал 3 приведенных ниже кода, но это дает мне пустой результат

x(url, { main: "",  })

x(url, { main: "body@html", })

x(url, { main: "@text",  })

ОБНОВЛЕНИЕ РЕШЕНИЯ:

Страница, которую я пытался очистить, является страницей ASCII, поэтому я смог найти решение с помощью cheerio nodejs

var request = require('request');
var cheerio = require('cheerio');
request(URL, function (error, response, html) {
    if (!error && response.statusCode == 200) {
       var $ = cheerio.load(html);
       var a = $(this);
       a.text();             
    }
});

a.text () -> Это дало мне все содержимое страницы, затем я выполнил строковые операции, чтобы очистить необходимую информацию

https://www.npmjs.com/package/cheerio

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...