Мне было просто интересно, если бы кто-нибудь знал о каких-либо хороших библиотеках для анализа файлов .doc (и подобных форматов, таких как .odt) для извлечения текста, но также продолжал форматировать информацию, где это возможно, для отображения на веб-сайте.
Возможность сделать то же самое для PDF-файлов было бы бонусом, но я не особо ищу это.
Это для проекта Rails, если это вообще помогает.
Заранее спасибо!