Я хочу использовать Spacy, чтобы обнаружить важную информацию в файле PDF и отредактировать / очистить другой НЕ ТАК важный текст. Но модели Spacy ожидают ввода текстовых данных, как показано ниже,
nlp = spacy.load('en_core_web_sm')
doc = nlp(u'This is the test input.')
Как использовать Spacy для выполнения операций NLP с использованием файла PDF в качестве входных данных и редактирования / санации некоторого текста в файле PDF?