Получение innerText HTML-страницы с помощью DOMParser ()? - PullRequest
0 голосов
/ 19 марта 2019

Я пытался заставить DOMParser очистить внутренний текст URL (разрабатывая веб-скребок, который ищет статьи), и я не могу заставить его работать.Используя Chrome, получить внутренний текст вкладки очень просто, однако я не могу найти никакой документации по получению внутреннего текста URL.Я также попытался сделать регулярное выражение и поместить HTML во временный элемент документа, но это также не работает.

Вот код DOMParser, где searchLink [x] - это URL-адрес статьи, а URLResult - место, где я хочу сохранить текст после анализа.

const Http = new XMLHttpRequest();
Http.open("GET", searchLink[x]);
Http.send();
Http.onreadystatechange=(e)=>{

urlResult = Http.responseText;
var parser = new DOMParser()
urlResult = parser.parseFromString(urlResult, 'text/html').body.innerText
console.log(urlResult)

}

Я также предоставлюпример возвращаемой строки с использованием приведенного выше кода (на pastebin, поскольку я не хочу заполнять страницу)

https://pastebin.com/VXNXwTSC

РЕДАКТИРОВАТЬ: HTML возвращается из Http GEThttps://pastebin.com/GzYD3CBk

РЕДАКТИРОВАТЬ: Boilerpipe имеет отличный API, который я использовал, чтобы получить текст статьи, очень рекомендую.Спасибо за помощь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...