Question

У меня есть ссылка типа

      http://www.downloads.com/help.pdf

Я хочу скачать это и проанализировать, чтобы получить текстовый контент.

Как мне это сделать?Я также планирую пометить (если есть такое слово) извлеченный текст

seeingidog · Answer 1 · 05 февраля 2011

Вы можете использовать гем pdf-reader (пример example / text.rb прост и работает для меня): https://github.com/yob/pdf-reader

Или утилита командной строки pdftotext.

diasks2 · Answer 2 · 22 октября 2014

Yomu gem также сможет извлечь для вас текст из PDF (а также других типов MIME).

require 'yomu'
Yomu.new(file_path).text

Paul · Answer 3 · 13 сентября 2016

Вы также можете взглянуть на DocRipper , камень, который я поддерживаю, который предоставляет интерфейс Ruby для извлечения текста из ряда форматов документов, включая PDF, doc, docx и sketch.

DocRipper использует скрытый pdftotext и избегает зависимостей Java.

require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"

Вы можете читать удаленные файлы, используя стандартную библиотеку Ruby:

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)

Извлечь текст из PDF (у меня есть ссылка на PDF) в рубине

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь текст из PDF (у меня есть ссылка на PDF) в рубине

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов