Как структурировать результаты успешной веб-очистки с помощью Apify и Puppeteer? - PullRequest
1 голос
/ 01 марта 2020

Используя Apify и Puppeteer, я хочу очистить таблицу данных по следующему URL:


Я хочу, чтобы результат был массивом объектов. Каждый элемент массива должен представлять каждую <tr> строку исходной таблицы источника данных и быть объектом JS со следующими свойствами.

{ firmName, firmUrl, hq, hqUrl, aum, }


  • firmName - это .innerText() первого элемента <td> каждой строки.
  • firmUrl - это атрибут href первого элемента <td> каждой строки.
  • hq является . innerText() второго <td> элемента каждой строки.
  • hqUrl является href атрибутом второго <td> элемента каждой строки.
  • aum - это . innerText() третьего <td> элемента каждой строки.

В частности, например, я хотел бы видеть следующий объект, возвращенный мне.

То, что я хочу увидеть, вариант A:
  "url": "https://en.wikipedia.org/wiki/List_of_hedge_funds",
  "pageTitle": "List of hedge funds - Wikipedia",
  "links": [
      firmName: "Bridgewater Associates",
      firmUrl: "/wiki/Bridgewater_Associates",
      hq: "Westport, Connecticut",
      hqUrl: "/wiki/Westport,_Connecticut",
      aum: "$132,050",
    // ...x39 more times

Или, альтернативно, объект может быть следующим (я не знаю, что возможно, это часть моего замешательства)

То, что я хочу увидеть, альтернатива B:
    "url": "https://en.wikipedia.org/wiki/List_of_hedge_funds",
    "pageTitle": "List of hedge funds - Wikipedia",
    "links": {
      firmName: "Bridgewater Associates",
      firmUrl: "/wiki/Bridgewater_Associates",
      hq: "Westport, Connecticut",
      hqUrl: "/wiki/Westport,_Connecticut",
      aum: "$132,050",
  // ...x39 more times

Но вместо этого я действительно вижу следующий результат.

То, что я на самом деле вижу:
  "url": "https://en.wikipedia.org/wiki/List_of_hedge_funds",
  "pageTitle": "List of hedge funds - Wikipedia",
  "links": [

Я использую f использование кода как моей pageFunction.

// The function accepts a single argument: the "context" object.
// For a complete list of its properties and functions,
// see https://apify.com/apify/web-scraper#page-function 
async function pageFunction( context ) {
    const url = 'https://en.wikipedia.org/wiki/List_of_hedge_funds';
    const TITLE_SELECTOR = 'title';
    const ANCHOR_SELECTOR = 'tr > td > a';
    const HREF_SELECTOR = 'href';

    // jQuery is handy for finding DOM elements and extracting data from them.
    //  To use it, make sure to enable the "Inject jQuery" option.
    const $ = context.jQuery;
    const pageTitle = $( TITLE_SELECTOR ).first().text();
    const anchorTag = $( ANCHOR_SELECTOR );
    const links = [];
    anchorTag.each((index, item,) => {
      const link = $(item).attr( HREF_SELECTOR );
      if( link ) links.push( link );

    return {
      url: context.request.url,

Как мне изменить свой код?

1 Ответ

2 голосов
/ 02 марта 2020

Выглядит хорошо, вам нужно изменить разбор данных из таблицы. Есть пример функции pageFunction, которая работает.

// The function accepts a single argument: the "context" object.
// For a complete list of its properties and functions,
// see https://apify.com/apify/web-scraper#page-function 
async function pageFunction( context ) {
    const url = 'https://en.wikipedia.org/wiki/List_of_hedge_funds';
    const TITLE_SELECTOR = 'title';
    const ANCHOR_SELECTOR = 'tr > td > a';
    const LINE_SELECTOR = '.wikitable tr'
    const HREF_SELECTOR = 'href';

    // jQuery is handy for finding DOM elements and extracting data from them.
    //  To use it, make sure to enable the "Inject jQuery" option.
    const $ = context.jQuery;
    const pageTitle = $( TITLE_SELECTOR ).first().text();
    const anchorTag = $( ANCHOR_SELECTOR );
    const lines = $( LINE_SELECTOR );
    const links = [];
    lines.each((index, item) => {
        const columns = $(item).find('td');
        const link = {
          firmName: columns.eq(1).text().trim(),
          firmUrl: columns.eq(1).find('a').eq(0).attr('href'),
          hq: columns.eq(2).text().trim(),
          hqUrl: columns.eq(2).find('a').eq(0).attr('href'),
        if (link.firmUrl) {

    return {
      url: context.request.url,