Загрузить PDF-файл с помощью gdata docs python v3.0 с помощью ocr - PullRequest
2 голосов
/ 31 декабря 2011

У меня есть следующая реализация для загрузки pdf-файла в Google docs (взято из примеров API gdata):

def UploadResourceSample():
  """Upload a document, and convert to Google Docs."""
  client = CreateClient()
  doc = gdata.docs.data.Resource(type='document', title='My Sample Doc')

  # This is a convenient MS Word doc that we know exists
  path = _GetDataFilePath('test.0.doc')
  print 'Selected file at: %s' % path

  # Create a MediaSource, pointing to the file
  media = gdata.data.MediaSource()
  media.SetFileHandle(path, 'application/msword')

  # Pass the MediaSource when creating the new Resource
  doc = client.CreateResource(doc, media=media)
  print 'Created, and uploaded:', doc.title.text, doc.resource_id.text

Теперь я хочу выполнить распознавание текста OCR для загруженного файла.Но я не уверен, как включить распознавание OCR в gdata docs python API.Итак, мой вопрос: есть ли способ включить распознавание OCR с помощью API gdata python v3.0 для файла PDF?

1 Ответ

3 голосов
/ 02 января 2012

Мне удалось получить документ в формате PDF с использованием следующего кода:

def UploadResourceSample(filename, filepath, fullpath):
  """Upload a document, and convert to Google Docs."""
  client = CreateClient()
  doc = gdata.docs.data.Resource(type='document', title=filename)

  path = fullpath
  print 'Selected file at: %s' % path

  # Create a MediaSource, pointing to the file
  media = gdata.data.MediaSource()
  media.SetFileHandle(path, 'application/pdf')

  # Pass the MediaSource when creating the new Resource
  create_uri = gdata.docs.client.RESOURCE_UPLOAD_URI + '?ocr=true&ocr-language=de'
  doc = client.CreateResource(doc, create_uri=create_uri, media=media)
  print 'Created, and uploaded:', doc.title.text, doc.resource_id.text
...