Я пытаюсь использовать textract на Python3 на MacOS.
`pip install textract`
завершается с ошибкой, как показано ниже:
#include_next <limits.h> /* recurse down to the real one */
^
compilation terminated.
error: command 'gcc' failed with exit status 1
который гкц
/usr/local/bin/gcc
gcc - версия
gcc (Homebrew GCC 4.9.4_1) 4.9.4
Copyright (C) 2015 Free Software Foundation, Inc.
This is free software; see the source for copying conditions. There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Я пытался использовать компилятор gcc по умолчанию после обновления через xcode v4.2.0 / usr / bin / gcc, но это не удалось с очень похожей ошибкой: сбой gcc со статусом 1: al.h не найден
Я также пытался установить gcc из anaconda, но это не удалось с теми же пределами ошибки. H не существует.
Ценю вашу помощь!
P.S. Моя конечная цель - извлечь текст из PDF. Я пытался с PdfMiner.six и PyPdf2, но оба они не могут правильно обрабатывать пробелы. Они либо удаляют все пробелы, объединяя все слова, либо добавляют странные пробелы.