Извлечь фрагмент из HTML с помощью Ruby? - PullRequest
1 голос
/ 04 августа 2010

Мне нужно показать первые 100 символов текста HTML, что означает, что я должен выбрать первые 100 символов, которые являются не тегами, а затем закрыть все открытые теги, оставляя сбалансированный HTML. Есть ли библиотека, которая может это сделать? Или есть какой-нибудь тривиальный способ сделать это, чего мне не хватает?

Текст изначально написан на текстиле, который может содержать и действительно содержит HTML, поэтому я решил, что лучше сначала превратить его в полностью HTML, а затем обрабатывать, но если что-то можно сделать на уровне текстиля, я тоже счастлив .

Ответы [ 2 ]

1 голос
/ 12 января 2012

Так я получу первые 100 символов текста. Возможно, вам придется изменить в соответствии с вашими потребностями

require 'nokogiri'

def get_first_100_chars
 doc = Nokogiri::Slop(open 'html_file.html')
 text = doc.html.body.text
 return text[0..99]
end

Не уверен насчет баланса HTML. Выложу, если узнаю.

0 голосов
/ 04 августа 2010

Посмотрите на Нокогири

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...