Nokogiri: Поиск <div>с использованием XPath - PullRequest
5 голосов
/ 16 марта 2009

Я использую Nokogiri (Rubygem) css search для поиска определенных <div> внутри моего html. Похоже, что поиск CSS Nokogiri не любит регулярных выражений. Я хотел бы переключиться на поиск Nokogiri xpath , так как это похоже на поддержку регулярных выражений в строках поиска.

Как мне реализовать (псевдо) поиск CSS, упомянутый ниже в поиске xpath?

require 'rubygems'
require 'nokogiri'

value = Nokogiri::HTML.parse(<<-HTML_END)
  "<html>
    <body>
      <p id='para-1'>A</p>
      <p id='para-22'>B</p>
      <h1>Bla</h1>
      <p id='para-3'>C</p>
      <p id='para-4'>D</p>
      <div class="foo" id="eq-1_bl-1">
        <p id='para-5'>3</p>
      </div>
    </body>
  </html>"
HTML_END

# my_block is given
my_bl = "1"
# my_eq corresponds to this regex
my_eq = "\/[0-9]+\/"

# FIXME The following line should be changed to an xpath search.
if my_div = value.css("div#eq-#{my_eq}_bl-#{my_bl}.foo").first
  # doing some stuff with the <p> inside the div
end

Ответы [ 2 ]

6 голосов
/ 16 марта 2009

Майк Далессио (половина разработчиков ядра Nokogiri) дал мне ответ на вопрос #nokogiri (irc.freenode.net). Похоже, что ни Nokogiri CSS, ни поиск XPath не поддерживают сопоставление с регулярными выражениями. Это его решение о том, как искать регулярные выражения в Nokogiri:

require 'rubygems'
require 'nokogiri'

value = Nokogiri::HTML.parse(<<-HTML_END)
  "<html>
    <body>
      <p id='para-1'>A</p>
      <p id='para-22'>B</p>
      <h1>Bla</h1>
      <p id='para-3'>C</p>
      <p id='para-4'>D</p>
      <div class="foo" id="eq-1_bl-1">
        <p id='para-5'>3</p>
      </div>
      <div class="bar" id="eq-1_bl-1">
        <p id='para-5'>3</p>
      </div>
    </body>
  </html>"
HTML_END

# my_block is given
my_bl = "1"
# my_eq corresponds to this regex
my_eq = "[0-9]+"
# full regex to search for in node ids
full_regex = %r(eq-#{my_eq}_bl-#{my_bl})

filter_by_id = Class.new do
  attr_accessor :matches

  def initialize(regex)
    @regex = regex
    @matches = []
  end

  def filter(node_set)
    @matches += node_set.find_all { |x| x['id'] =~ @regex }
  end
end.new(full_regex)

value.css("div.foo:filter()", filter_by_id)
filter_by_id.matches.each do |node|
  puts node
end
3 голосов
/ 03 декабря 2013

Более простой подход, основанный на ответе выше:

regex = /subject|header/
headers = doc.css("table td:nth-child(1) div").find_all do
  |h| h['class'] =~ regex
end

Спасибо за размещение этого вопроса.

...