HTML, возвращаемый Nokogiri, отличается от фактического исходного кода HTML - PullRequest
1 голос
/ 30 октября 2010

Я успешно просмотрел некоторые сайты, но сегодня столкнулся с каким-то странным поведением Нокогири на определенном сайте.

Если я просматриваю исходный код HTML, снятый Nokogiri, с фактическим исходным кодом HTML с сайта на определенных страницах, он усекается. Некоторые страницы работают просто отлично, и все данные есть, а другие парируют и обрезаются.

www.bento.com / revj / 0172.html (не работает - усеченный HTML-код, возвращаемый Nokogiri) www.bento.com/revj/0101.html (прекрасно работает)

scraped_jpage = Nokogiri::HTML(open(page_to_scrape)
puts scraped_pagej

Я перепробовал все виды различного кода, изменил кодировку (UTF-8, SHIFT_JIS и т. Д.), Но не вижу никакой причины, по которой Nokogiri усекает возвращаемый HTML.

Английские версии этих страниц отлично работают.

www.bento.com / об / 0172.html www.bento.com/rev/0101.html

Спасибо за любую помощь - надеюсь, это что-то очевидное, что я пропустил, а не ошибка.

1 Ответ

1 голос
/ 21 ноября 2010

Потому что у исходной страницы плохая структура HTML.

Попробуйте напечатать ошибки результата:

puts scraped_jpage.errors
...