Я пытался заставить DOMParser очистить внутренний текст URL (разрабатывая веб-скребок, который ищет статьи), и я не могу заставить его работать.Используя Chrome, получить внутренний текст вкладки очень просто, однако я не могу найти никакой документации по получению внутреннего текста URL.Я также попытался сделать регулярное выражение и поместить HTML во временный элемент документа, но это также не работает.
Вот код DOMParser, где searchLink [x] - это URL-адрес статьи, а URLResult - место, где я хочу сохранить текст после анализа.
const Http = new XMLHttpRequest();
Http.open("GET", searchLink[x]);
Http.send();
Http.onreadystatechange=(e)=>{
urlResult = Http.responseText;
var parser = new DOMParser()
urlResult = parser.parseFromString(urlResult, 'text/html').body.innerText
console.log(urlResult)
}
Я также предоставлюпример возвращаемой строки с использованием приведенного выше кода (на pastebin, поскольку я не хочу заполнять страницу)
https://pastebin.com/VXNXwTSC
РЕДАКТИРОВАТЬ: HTML возвращается из Http GEThttps://pastebin.com/GzYD3CBk
РЕДАКТИРОВАТЬ: Boilerpipe имеет отличный API, который я использовал, чтобы получить текст статьи, очень рекомендую.Спасибо за помощь