Разбор HTML с Hpricot & Ruby - получить самый внутренний HTML? - PullRequest
0 голосов
/ 09 октября 2010

Я хочу разобрать какой-то старый html, который содержит множество посторонних тегов, которые теперь можно сделать с помощью CSS - <b>, <font> и т. Д. Я использую Hpricot для его анализа, но я хочу получить самый внутренний "inner_html" - как это сделать с Hpricot? Например, допустим, я использую Hpricot, чтобы получить все элементы <table>, которые я перебираю для получения строк и ячеек, но я хочу получить данные внутри ячеек, но они не могут иметь дополнительных тегов или таких вещей, как <b><font ...>1,000</font></b> - есть ли хитрость, чтобы вывести только «1000»?

Спасибо
Бен

1 Ответ

1 голос
/ 09 октября 2010

Я не уверен, что это именно то, что вам нужно, но вы можете посмотреть на метод inner_text .Он вернет то же самое, что и inner_html, за исключением того, что все элементы HTML будут удалены.

...