Вы также можете взглянуть на DocRipper , камень, который я поддерживаю, который предоставляет интерфейс Ruby для извлечения текста из ряда форматов документов, включая PDF, doc, docx и sketch.
DocRipper использует скрытый pdftotext и избегает зависимостей Java.
require 'doc_ripper'
DocRipper::rip('/path/to/file.pdf') => "Pdf text"
Вы можете читать удаленные файлы, используя стандартную библиотеку Ruby:
require 'open-uri'
require 'doc_ripper'
tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)