Извлечь текст из PDF (у меня есть ссылка на PDF) в рубине - PullRequest
7 голосов
/ 05 февраля 2011

У меня есть ссылка типа

      http://www.downloads.com/help.pdf

Я хочу скачать это и проанализировать, чтобы получить текстовый контент.

Как мне это сделать?Я также планирую пометить (если есть такое слово) извлеченный текст

Ответы [ 3 ]

15 голосов
/ 05 февраля 2011

Вы можете использовать гем pdf-reader (пример example / text.rb прост и работает для меня): https://github.com/yob/pdf-reader

Или утилита командной строки pdftotext.

4 голосов
/ 22 октября 2014

Yomu gem также сможет извлечь для вас текст из PDF (а также других типов MIME).

require 'yomu'
Yomu.new(file_path).text
0 голосов
/ 13 сентября 2016

Вы также можете взглянуть на DocRipper , камень, который я поддерживаю, который предоставляет интерфейс Ruby для извлечения текста из ряда форматов документов, включая PDF, doc, docx и sketch.

DocRipper использует скрытый pdftotext и избегает зависимостей Java.

require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"

Вы можете читать удаленные файлы, используя стандартную библиотеку Ruby:

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...