Question

Всего нубов, когда дело доходит до python программирования, поэтому, пожалуйста, потерпите меня.

Я медленно работаю над кодом, где хочу получить содержимое PDF-файла и найти определенный c шаблон. текста (в основном 1-3 цифры, 1-3 заглавные буквы, da sh, 1-5 цифр).

Однако я получаю синтаксическую ошибку с моим re.findall

    tags = re.findall([0-9]+[A-Z]+-[0-9]+,parsed)
                                         ^
SyntaxError: invalid syntax

Вот мой код:

import re
from tika import parser

raw = parser.from_file('sample.pdf')
parsed = raw['content']

tags = re.findall([0-9]+[A-Z]+-[0-9]+,parsed)

print(parsed)

print(tags)

любая помощь будет принята с благодарностью!

JT

Попытка найти заданный шаблон c в Python с использованием TIKA для PDF-файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Попытка найти заданный шаблон c в Python с использованием TIKA для PDF-файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов