Пространство для редактирования / дезинфекции НЕ ТАК важный текст в файле PDF - PullRequest
0 голосов
/ 05 апреля 2019

Я хочу использовать Spacy, чтобы обнаружить важную информацию в файле PDF и отредактировать / очистить другой НЕ ТАК важный текст. Но модели Spacy ожидают ввода текстовых данных, как показано ниже,

nlp = spacy.load('en_core_web_sm')
doc = nlp(u'This is the test input.')

Как использовать Spacy для выполнения операций NLP с использованием файла PDF в качестве входных данных и редактирования / санации некоторого текста в файле PDF?

...