Конвертировать PDF в docx - PullRequest
0 голосов
/ 12 июня 2019

Как мы можем конвертировать PDF в docx с / без использования python. На самом деле я хочу автоматизировать преобразование большого количества файлов, поэтому мне нужен API.

Я использовал интернет-сайты, такие как: https://pdf2docx.com/

https://online2pdf.com/pdf2docx

https://www.zamzar.com/convert/pdf-to-docx/

Мне не удалось получить доступ для непосредственного использования там api

Ответы [ 3 ]

0 голосов
/ 12 июня 2019

Преобразование PDF-файлов в документы может быть проблематичной задачей, а в противном случае это было бы легко.

Одним из возможных решений может быть «Сохранить как» PDF-файл в нужном месте с расширением «.docx».Это может сработать, если PDF-файл был сохранен из docx и наоборот.

0 голосов
/ 13 июня 2019

Я технический директор Zamzar, и у нас есть API, чтобы сделать это, доступное на https://developers.zamzar.com/

У нас есть Тестовая учетная запись , которую вы можете использовать бесплатно, чтобы опробовать службу, и примеры кода для Python в наших документах , которые позволят вам преобразовать файл PDF в DOCX довольно просто:

import requests
from requests.auth import HTTPBasicAuth

api_key = 'YOUR_API_KEY'
endpoint = "https://sandbox.zamzar.com/v1/jobs"
source_file = "/tmp/my.pdf"
target_format = "docx"

file_content = {'source_file': open(source_file, 'rb')}
data_content = {'target_format': target_format}
res = requests.post(endpoint, data=data_content, files=file_content, auth=HTTPBasicAuth(api_key, ''))
print res.json()

Затем вы можете опросить задание , чтобы узнать, когда оно закончилось до загрузки преобразованного файла .

0 голосов
/ 12 июня 2019

Вы можете попробовать pdftohtml , затем использовать Pandoc для преобразования HTML в docx.

На самом деле, PDF - это не формат документа, а формат страницы, поэтому преобразование может быть проблематичным.

...