HTML-парсер, совместимый с JRuby? - PullRequest
1 голос
/ 23 августа 2010

Мне трудно найти анализатор HTML, который работает с JRuby.

Мне нравится использовать Nokogiri для разбора HTML, но Nokogiri требует использования bxml2.dll, который я не используюнедоступно на моей машине, и я не уверен, что могу гарантировать, что оно доступно на машинах всех пользователей.

Я пытался использовать другой любимый, Scrubyt, но он использует Mechanize, который также требует Nokogiri.

Какой парсер Ruby HTML вы рекомендуете использовать с JRuby?

Ответы [ 2 ]

1 голос
/ 25 августа 2010

Чистая Java-версия Nokogiri не зависит от libxml2 или любого двоичного файла.См. http://wiki.github.com/tenderlove/nokogiri/pure-java-nokogiri-for-jruby.

Hpricot - это популярная библиотека для разбора HTML, которая также имеет чистый порт Java.Функциональность похожа, фактически Hpricot был парсером, который популяризировал использование CSS-селекторов для разбора HTML.

0 голосов
/ 23 августа 2010

Почему бы не использовать чистую версию Java nokogiri?

http://github.com/tenderlove/nokogiri/tree/java

...