Мне нужно извлечь текст из файла PDF и сделать новый файл .txt, чтобы положить в - PullRequest
0 голосов
/ 23 апреля 2019

Мне нужна помощь в скрипте PYTHON, чтобы прочитать файл PDF, скопировать каждое слово в нем и поместить их в новый файл .txt (каждое слово должно занимать 1 строку); а затем удалил повторяющиеся слова и сосчитал их после этого и напечатал счет в последней строке

Ответы [ 2 ]

0 голосов
/ 23 апреля 2019

Установите эти библиотеки.

PyPDF2 (Для преобразования простых текстовых файлов PDF в текст, читаемый Python)

textract (Для преобразования нетривиальных отсканированных файлов PDF в текст для чтенияby Python)

nltk (для очистки и преобразования фраз в ключевые слова)

Каждая из этих библиотек может быть установлена ​​с помощью следующих команд в боковом терминале (в macOS):

pip install Libraryname

См. Этот урок https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f

Используйте texttrack, он поддерживает многие типы файлов, а также PDF.Так что лучше помечайте текст.

следуйте этим ссылкам

https://github.com/deanmalmgren/textract

https://textract.readthedocs.io/en/latest/

0 голосов
/ 23 апреля 2019

Вы искали ответы в Stackoverflow?

Здесь вы можете найти довольно неплохие ответы о том, как извлечь текст из файла PDF (посмотрите на ответ Якобовского): Как извлечь текст из файла PDF?

Здесь вы можете найти информацию о записи / редактировании / создании .txt файлов: https://www.guru99.com/reading-and-writing-files-in-python.html

...