Попытка найти заданный шаблон c в Python с использованием TIKA для PDF-файлов - PullRequest
0 голосов
/ 27 апреля 2020

Всего нубов, когда дело доходит до python программирования, поэтому, пожалуйста, потерпите меня.

Я медленно работаю над кодом, где хочу получить содержимое PDF-файла и найти определенный c шаблон. текста (в основном 1-3 цифры, 1-3 заглавные буквы, da sh, 1-5 цифр).

Однако я получаю синтаксическую ошибку с моим re.findall

    tags = re.findall([0-9]+[A-Z]+-[0-9]+,parsed)
                                         ^
SyntaxError: invalid syntax

Вот мой код:

import re
from tika import parser

raw = parser.from_file('sample.pdf')
parsed = raw['content']

tags = re.findall([0-9]+[A-Z]+-[0-9]+,parsed)

print(parsed)

print(tags)

любая помощь будет принята с благодарностью!

JT

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...