Nokogiri и Hpricot довольно взаимозаменяемы. То есть Нокогири (html) является эквивалентом Hpricot (html). Не совсем уверен, что понимаю, чего пытается достичь связанная статья, но:
Извлечение текста из тела HTML, которое включает игнорирование больших пробелов между тегами и словами.
Это будет более простой подход в Hpricot и избавит от необходимости в hpricot.search("script").remove
битах. То есть Просто получите тело в первую очередь:
Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")
А в Нокогири:
Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")