Я успешно просмотрел некоторые сайты, но сегодня столкнулся с каким-то странным поведением Нокогири на определенном сайте.
Если я просматриваю исходный код HTML, снятый Nokogiri, с фактическим исходным кодом HTML с сайта на определенных страницах, он усекается. Некоторые страницы работают просто отлично, и все данные есть, а другие парируют и обрезаются.
www.bento.com / revj / 0172.html (не работает - усеченный HTML-код, возвращаемый Nokogiri)
www.bento.com/revj/0101.html (прекрасно работает)
scraped_jpage = Nokogiri::HTML(open(page_to_scrape)
puts scraped_pagej
Я перепробовал все виды различного кода, изменил кодировку (UTF-8, SHIFT_JIS и т. Д.), Но не вижу никакой причины, по которой Nokogiri усекает возвращаемый HTML.
Английские версии этих страниц отлично работают.
www.bento.com / об / 0172.html
www.bento.com/rev/0101.html
Спасибо за любую помощь - надеюсь, это что-то очевидное, что я пропустил, а не ошибка.