Как лучше всего проанализировать эту страницу с помощью nokogiri? - PullRequest
2 голосов
/ 03 июня 2011

Я пытаюсь найти наилучший способ разбора экрана результатов поиска, который состоит из 25 повторяющихся патчей, например:

Имя: ДЖОН ДУ /НАИМЕНОВАНИЕ КОМПАНИИ

Статус: АКТИВНЫЙ

Дата регистрации: 2007-08-17

Адрес: 123 ГЛАВНАЯ УЛИЦА

Город: ANYTOWN Штат / территория / другое: NEW YORK Страна: US

Почтовый индекс / Почтовый индекс: 10101

Мне удалось проанализировать и очистить страницу, чтобы вернуть один из 25 наборов результатов, и я застрял в том, как вернутьостальные.Я думал о реализации переменной, которая будет увеличиваться с 9 до 33, но не смогла заставить ее работать.Код, который я использую, выглядит следующим образом:

require "nokogiri"           

class String
  def astrip
    self.gsub(/([\x09|\x0D|\n|\t])|(\xc2\xa0){1,}/u, '').strip
  end
end

i = 9

f = File.open("testpage.html", "r:iso-8859-1:utf-8")
doc = Nokogiri::HTML(f)

NAME        = doc.css(":nth-child(" + i.to_s + ") div:nth-child(1) a").text.astrip.split("/")
NAME_URL    = doc.css(":nth-child(" + i.to_s + ") div:nth-child(1) a").map { |link| link['href'] }
STATUS      = doc.css(":nth-child(" + i.to_s + ") div:nth-child(2) a").text
JOINED      = doc.css(":nth-child(" + i.to_s + ") div:nth-child(3)").text.gsub("Date Joined:", "").astrip.strip
ADDRESS1    = doc.css(":nth-child(" + i.to_s + ") div:nth-child(4)").text.gsub("Address:", "").astrip.strip
ADDRESS2    = doc.css(":nth-child(" + i.to_s + ") div:nth-child(5)").text.astrip.gsub("City:", "").gsub("State/Territory/Other", "").gsub("Country", "").split(":")
ZIPCODE     = doc.css(":nth-child(" + i.to_s + ") div:nth-child(6)").text.gsub("Postal Code/Zip Code:", "").astrip.strip

Output = NAME[0].strip, NAME[1].strip, NAME_URL[0].to_s.strip, STATUS, JOINED, ADDRESS1, ADDRESS2[0].strip, ADDRESS2[1].strip, ADDRESS2[2].strip, ZIPCODE

p Output

Он возвращает вывод, который меня устраивает и выглядит следующим образом:

["JOHN DOE", "COMPANY NAME", "http://linktoprofile/johndoe", "ACTIVE", "2007-08-17", "123 MAIN STREET", "ANYTOWN", "NEW YORK", "US", "10101"]

1 Ответ

3 голосов
/ 17 июля 2011

Без примера HTML наша способность предоставить работающее решение действительно ограничена.

Это должно дать вам отправную точку для работы с:

require 'nokogiri'

html = <<EOT
<html>
  <body>
    <div>
      <p><b>Name:</b> JOHN DOE / COMPANY NAME</p>
      <p><b>Status:</b> ACTIVE</p>
      <p><b>Date Joined:</b> 2007-08-17</p>
      <p><b>Address:</b> 123 MAIN STREET</p>
      <p><b>City:</b> ANYTOWN <b>State/Territory/Other:</b> NEW YORK <b>Country:</b> US</p>
      <p><b>Postal Code/Zip Code:</b> 10101</p>
    </div>
  </body>
</html>
EOT

doc = Nokogiri::HTML(html)

data = doc.search('div').map { |div| 
  name               = div.at('//p[1]').text[/:(.+)/, 1].strip
  status             = div.at('//p[2]').text[/:(.+)/, 1].strip
  date_joined        = div.at('//p[3]').text[/:(.+)/, 1].strip
  address            = div.at('//p[4]').text[/:(.+)/, 1].strip
  city_state_country = div.at('//p[5]').text
  postal_code        = div.at('//p[6]').text[/:(.+)/, 1].strip

  city, state, country = (city_state_country.match(%r{City:(.+) State/Territory/Other:(.+) Country:(.+)}).captures).map{ |s| s.strip }

  {
    :name        => name,
    :status      => status,
    :date_joined => date_joined,
    :address     => address,
    :city        => city,
    :state       => state,
    :country     => country,
    :postal_code => postal_code
  }
}

Полученный результат выглядит следующим образом:

require 'pp'
pp data
# >> [{:name=>"JOHN DOE / COMPANY NAME",
# >>   :status=>"ACTIVE",
# >>   :date_joined=>"2007-08-17",
# >>   :address=>"123 MAIN STREET",
# >>   :city=>"ANYTOWN",
# >>   :state=>"NEW YORK",
# >>   :country=>"US",
# >>   :postal_code=>"10101"}]

Если вы хотите массив массивов, используйте это в блоке карты:

  [
    name,
    status,
    date_joined,
    address,
    city,
    state,
    country,
    postal_code
  ]

, который будет генерировать:

# >> [["JOHN DOE / COMPANY NAME",
# >>   "ACTIVE",
# >>   "2007-08-17",
# >>   "123 MAIN STREET",
# >>   "ANYTOWN",
# >>   "NEW YORK",
# >>   "US",
# >>   "10101"]]

Альтернативный способ поиска, который, как мне кажется, легче поддерживать, поскольку он более СУХОЙ, это:

data = doc.search('div').map { |div| 
  name,
  status,
  date_joined,
  address,
  city,
  state,
  country,
  postal_code = [
    'Name', 
    'Status', 
    'Date Joined', 
    'Address', 
    'City', 
    'State/Territory/Other', 
    'Country', 
    'Postal Code/Zip Code'
  ].map { |t| 
     div.at( %Q(//p/b[text()="#{t}:"]) ).next.text.strip
  }
...