Как извлечь относительные Xpath веб-страницы из URL - PullRequest
0 голосов
/ 12 июня 2018

Я работаю над программой для перечисления элементов внутри веб-страницы и их соответствующих относительных путей.Используя Java и JSoup, я хочу извлечь относительные Xpath, созданные динамически для всех элементов в любой данной веб-странице.Здесь мне наверняка поможет полная и небольшая рабочая утилита.

Я хочу что-то вроде:

//*[@id="menu-item-13686"]/a

Пример вывода:

Element Or Node or component Name: xxxx AND Xpath = //*[@id="menu-item-13686"]/a

Спасибо

1 Ответ

0 голосов
/ 18 июня 2018

Я думаю, вы можете начать с этого.

Исправлена ​​ошибка в версии jOOX - 1.6.1 Скомпилировано с Java 10

См. https://github.com/jOOQ/jOOX/issues/158

Приведенный ниже фрагмент кода выбирает все элементы и для каждого элемента выводит имя узла, имя тега и селектор CSS и Xpath, которые будут уникально выбирать этот элемент.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.joox.selector.CSS2XPath;

public class TestParser {

public static void main(String[] args) {

    try {
        Document doc = Jsoup.connect("https://theuserisdrunk.com/").get();
        Elements elements = doc.select("*");
        for (Element element : elements) {
            String path = CSS2XPath.css2xpath(element.cssSelector(), true);
            System.out.println("Node name : " + element.nodeName());
            System.out.println("      Tag : " + element.tagName());
            System.out.println("      CSS : " + element.cssSelector());
            System.out.println("    XPath : " + path + "\n");

        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

}

Пример вывода:

 Node name : div
      Tag : div
      CSS : #mc-embedded-subscribe-form > div.clear:nth-child(4)
    XPath : //*[@id='mc-embedded-subscribe-form']/div[@class='clear' or starts-with(@class, 'clear ') or ' clear' = substring(@class, string-length(@class) - string-length(' clear') + 1) or contains(@class, ' clear ')][count(preceding-sibling::*) = 4 - 1]

Node name : input
      Tag : input
      CSS : #mc-embedded-subscribe
    XPath : //*[@id='mc-embedded-subscribe']

Node name : p
      Tag : p
      CSS : #mc_embed_signup > p.intern:nth-child(2)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 2 - 1]

Node name : a
      Tag : a
      CSS : #mc_embed_signup > p.intern:nth-child(2) > a
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 2 - 1]/a

Node name : p
      Tag : p
      CSS : #mc_embed_signup > p.intern:nth-child(3)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 3 - 1]

Node name : i
      Tag : i
      CSS : #mc_embed_signup > p.intern:nth-child(3) > i
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 3 - 1]/i

Node name : p
      Tag : p
      CSS : #mc_embed_signup > p.intern:nth-child(4)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 4 - 1]

Node name : a
      Tag : a
      CSS : #mc_embed_signup > p.intern:nth-child(4) > a:nth-child(1)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 4 - 1]/a[count(preceding-sibling::*) = 1 - 1]

Node name : a
      Tag : a
      CSS : #mc_embed_signup > p.intern:nth-child(4) > a:nth-child(2)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 4 - 1]/a[count(preceding-sibling::*) = 2 - 1]

Node name : i
      Tag : i
      CSS : #mc_embed_signup > p.intern:nth-child(4) > i
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 4 - 1]/i

Node name : a
      Tag : a
      CSS : #mc_embed_signup > p.intern:nth-child(4) > a:nth-child(4)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 4 - 1]/a[count(preceding-sibling::*) = 4 - 1]

Node name : a
      Tag : a
      CSS : #mc_embed_signup > p.intern:nth-child(4) > a:nth-child(5)
    XPath : //*[@id='mc_embed_signup']/p[@class='intern' or starts-with(@class, 'intern ') or ' intern' = substring(@class, string-length(@class) - string-length(' intern') + 1) or contains(@class, ' intern ')][count(preceding-sibling::*) = 4 - 1]/a[count(preceding-sibling::*) = 5 - 1]

Node name : script
      Tag : script
      CSS : html > body > script:nth-child(3)
    XPath : //html/body/script[count(preceding-sibling::*) = 3 - 1]

Node name : script
      Tag : script
      CSS : html > body > script:nth-child(4)
    XPath : //html/body/script[count(preceding-sibling::*) = 4 - 1]
...