Question

Например, у меня есть следующий URL-адрес в формате PDF:

https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

Использование скриптов Google Я хотел бы извлечь его содержимое.До сих пор я пробовал это:

var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
Logger.log(response.getContentText());

К сожалению, это возвращает HTML-текст, который не читается и не имеет отношения к мне.Я хотел бы извлечь основную часть этого документа (фактическая текстовая информация).У вас есть подобный опыт, как это сделать?

mars · Answer 1 · 22 марта 2019

На самом деле я нашел решение.Вы можете преобразовать его в blob в формате pdf, а затем использовать pdftotext для преобразования его в текст.

 var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
  var blob = response.getAs('application/pdf')
  var filetext = pdfToText( blob, {keepTextfile: false} );

Извлечь текст содержания из PDF-URL с помощью Google Scripts

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь текст содержания из PDF-URL с помощью Google Scripts

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов