Вот что-то в Ruby с использованием Nokogiri.
require 'rubygems' # This line isn't needed on Ruby 1.9
require 'nokogiri'
ARGV.each do |input_filename|
doc = Nokogiri::HTML(File.read(input_filename))
title, body = doc.title, doc.xpath('//body').inner_text
puts %Q(#{title}, "#{body}")
end
Сохраните это в файл .rb
, например extractor.rb
.Затем вам нужно убедиться, что Nokogiri установлен, запустив gem install nokogiri
.
. Используйте этот скрипт следующим образом:
ruby extractor.rb /path/to/yourhtmlfiles/*.html > out.txt
Обратите внимание, что я не обрабатываю символы новой строки в этом скрипте, но выпохоже, это выяснилось.
ОБНОВЛЕНИЕ:
На этот раз он удаляет символы новой строки и начальные / конечные пробелы.
require 'rubygems' # This line isn't needed on Ruby 1.9
require 'nokogiri'
ARGV.each do |input_filename|
doc = Nokogiri::HTML(File.read(input_filename))
title, body = doc.title, doc.xpath('//body').inner_text.gsub("\n", '').strip
puts %Q(#{title}, "#{body}")
end