Question

 Hpricot(html).inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

hpricot = Hpricot(html)
hpricot.search("script").remove
hpricot.search("link").remove
hpricot.search("meta").remove
hpricot.search("style").remove

нашел его на http://www.savedmyday.com/2008/04/25/how-to-extract-text-from-html-using-rubyhpricot/

atomicules · Answer 1 · 16 апреля 2010

Nokogiri и Hpricot довольно взаимозаменяемы. То есть Нокогири (html) является эквивалентом Hpricot (html). Не совсем уверен, что понимаю, чего пытается достичь связанная статья, но:

Извлечение текста из тела HTML, которое включает игнорирование больших пробелов между тегами и словами.

Это будет более простой подход в Hpricot и избавит от необходимости в hpricot.search("script").remove битах. То есть Просто получите тело в первую очередь:

Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

А в Нокогири:

Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

как перевести этот код hpricot в nokogiri?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как перевести этот код hpricot в nokogiri?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы