Как создать шаблон для поиска метода RegEx на python3? - PullRequest
0 голосов
/ 03 ноября 2019

Я пишу функцию для извлечения строки из HTML-кода с помощью регулярного выражения.

ex: <p class = 3DFormText> [Telephone] <o: p> </ o: p> <w:sdtPr></w:sdtPr> </p> для этого я хочу получить [Telephone], поэтому формат для строки, которую я хочуполучить [anything]. Но я не знаю эту схему поиска метода регулярных выражений. Так что кто-нибудь, пожалуйста, помогите мне создать это или дать мне какие-либо предложения.

1 Ответ

1 голос
/ 04 ноября 2019

Лучше использовать BeautifulSoup4

Вы также можете запустить pip install BeautifulSoup4 (с учетом регистра)

, но если вы настаиваете, попробуйте улучшить этот шаблон, я просто сделал это такконечно, это не на 100% идеально, и это соответствует только открывающему тегу

<[A-Za-z]+\s*(\s*[a-zA-Z0-9]\s*=*"*[A-Za-z0-9\(\)]*"*)*>

, это соответствует <tag ANY="ANY" checked> и атрибуты не являются обязательными, конечно.

это соответствовало моему фиктивному тегу

<tag required name1="ahmed" name="mohamed" person="idk" whatever="whatever" checked >

обратите внимание, что я сделал так, чтобы он принимал атрибуты с заглавной буквы (первая буква) только потому, что html принимает их, так что не стесняйтесь удалить это, если хотите.

...