Как разобрать текстовые документы с помощью ruby? - PullRequest
13 голосов
/ 17 декабря 2008

Кто-нибудь знает библиотеку, которую я могу использовать в OS X / Linux для анализа файлов Word и вывода содержимого в виде HTML?

Я посмотрел на win32ole, но, насколько я понимаю, это только для Windows, хотя я могу ошибаться.

Есть предложения?

1 Ответ

10 голосов
/ 18 декабря 2008

Формат документа Word (на данный момент игнорирующий docx) ужасен и постоянно менялся. IMHO, именно поэтому существует так мало (читай: ноль) библиотек Ruby для их анализа.

Я рекомендую использовать JRuby и некоторые из установленных библиотек Java для чтения формата doc. Google должен помочь вам там: http://schmidt.devlib.org/java/libraries-word.html.

Существует проект Java для чтения форматов файлов MIcrosoft, POI (http://poi.apache.org/), и у них есть привязки Ruby (http://poi.apache.org/poi-ruby.html), но я не уверен, насколько они актуальны) На их сайте написано, что привязки Ruby предназначены для 1.8.2 ...

...