Библиотеки Ruby для анализа файлов .doc? - PullRequest
4 голосов
/ 19 мая 2010

Мне было просто интересно, если бы кто-нибудь знал о каких-либо хороших библиотеках для анализа файлов .doc (и подобных форматов, таких как .odt) для извлечения текста, но также продолжал форматировать информацию, где это возможно, для отображения на веб-сайте.

Возможность сделать то же самое для PDF-файлов было бы бонусом, но я не особо ищу это.

Это для проекта Rails, если это вообще помогает.

Заранее спасибо!

1 Ответ

2 голосов
/ 20 мая 2010

Apache POI - очень популярный способ доступа к документам Word и Excel. Существует Ruby POI связывание , которое, возможно, стоит изучить, но, похоже, вам придется создать его самостоятельно. И API кажется не очень похожим на Ruby, поскольку это практически прямой порт из кода Java. И похоже, что он был протестирован только на Ruby 1.8.2.

...