невозможно преобразовать PDF в текст с помощью скрипта Python - PullRequest
0 голосов
/ 18 октября 2010

Я хочу преобразовать все мои файлы .pdf из определенного каталога в формат .txt, используя команду pdftotext ... но я хочу сделать это, используя скрипт на python ... мой скрипт содержит:

import glob 
import os

fullPath = os.path.abspath("/home/eth1/Downloads")

for fileName in glob.glob(os.path.join(fullPath,'*.pdf')):
   fullFileName = os.path.join(fullPath, fileName)
   os.popen('pdftotext fullFileName')

но я получаю следующую ошибку:

Error: Couldn't open file 'fullFileName': No such file or directory.

Ответы [ 2 ]

3 голосов
/ 18 октября 2010

Вы передаете fullFileName буквально os.popen. Вместо этого вы должны сделать что-то подобное (при условии, что fullFileName не нужно экранировать):

os.popen('pdftotext %s' % fullFileName)

Также обратите внимание, что os.popen считается устаревшим, лучше вместо него использовать модуль subprocess:

import subprocess
retcode = subprocess.call(["/usr/bin/pdftotext", fullFileName])

Это также намного безопаснее, поскольку правильно обрабатывает пробелы и специальные символы в fullFileName.

1 голос
/ 18 октября 2010

Измените последнюю строку на

os.open('pdftotext {0}'.format(fullFileName))

Таким образом, вместо имени будет передано значение fullFileName.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...