Как найти элемент HTML или группу элементов HTML по идентификатору или классу в Колли? - PullRequest
0 голосов
/ 24 октября 2018

Я использую Колли для очистки сайта.в обратном вызове OnHTML:

package main

import (
    "fmt"
    "github.com/gocolly/colly"
)

func main() {

    // Instantiate default collector
    c := colly.NewCollector()

    // On every a element which has href attribute call callback
    c.OnHTML("h3", func(e *colly.HTMLElement) {
        link := e.Text
        // Print link
        fmt.Printf("Link found: %q -> %s\n", e.Text, link)
        // Visit link found on page
        // Only those links are visited which are in AllowedDomains
        c.Visit(e.Request.AbsoluteURL(link))
    })

    // Before making a request print "Visiting ..."
    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL.String())
    })

    // Start scraping on https://hackerspaces.org
    c.Visit("https://bbs.archusers.ir/")
}

например, я хочу получить все с идентификатором «id Name» или получить все с «именем класса».Как я могу это сделать?!

1 Ответ

0 голосов
/ 27 октября 2018

Я нашел свой ответ здесь .действительно хороший учебник для фреймворка Colly.

OnHTML - мощный инструмент.Он может искать селекторы CSS (например, div.my_fancy_class или #someElementId), и вы можете прикрепить к вашему коллектору несколько обратных вызовов OnHTML для обработки разных типов страниц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...