Question

В настоящее время я работаю над динамическим c проектом веб-сканера для извлечения бизнес-информации с использованием мета-тегов и регулярных выражений для выполнения следующих действий:

Просматривать все внутренние ссылки начальный URL
Загрузите каждый html документ по каждой ссылке
Проверьте каждый из загруженных html документов, если он содержит деловую информацию, используя метатеги

Ниже приведен мой код:

const HCCrawler = require('headless-chrome-crawler');
const puppeteer = require('puppeteer');

(async () => {

// declare array
const linksArray = [];

const crawler = await HCCrawler.launch({

evaluatePage: (() => ({
  // scrape the title
  title: $("meta[property='og:title']").attr("content"),
  // scrape the image
  image: $("meta[property='og:image']").attr("content"),
  // scrape the description
  description: $("meta[property='og:description']").attr("content")
})),

onSuccess: (async result => {
  // store the object
  var title = result.result.title;
  var image = result.result.image;
  var description = result.result.description;

  // store all the crawled links in array
  linksArray.push(result.links);

  // loop each link in array
  for (url of linksArray[0]) {
    // 1. to do: crawl each link
    // 2. to do: download each page
    // 3. to do: check if business information is in the page
      //using regex and meta tags
  }

  // print items
  console.log("Title: " + title);
  console.log("Image: " + image);
  console.log("Description: " + description);
}),

onError: (error => {
  console.log(error);
})
});
  await crawler.queue('https://www.dintaifung.com.sg/');
  await crawler.onIdle();
  await crawler.close();
})();

Я пытаюсь использовать puppeteer для загрузки документа html и извлечения деловой информации. Может ли кто-нибудь помочь мне с этим? Заранее спасибо.

Node.js (без головы Chrome Crawler) - Как динамически очищать данные на каждой странице ссылки для сканирования?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Node.js (без головы Chrome Crawler) - Как динамически очищать данные на каждой странице ссылки для сканирования?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы