Как получить координаты символов в документе html? - PullRequest
0 голосов
/ 14 января 2020
<span class = 'ocrx_word' id = 'word_1_45' title = 'bbox 369 429 301 123;x_wconf 96'>refrence</span>

как извлечь только код 369 429 301 123 из приведенного выше кода, используя python?

Ответы [ 2 ]

1 голос
/ 14 января 2020
from bs4 import BeautifulSoup
import re

data = """<span class = 'ocrx_word' id = 'word_1_45' title = 'bbox 369 429 301 123;x_wconf 96'>refrence</span>
"""

soup = BeautifulSoup(data, 'html.parser')

new = soup.find("span", {'class': 'ocrx_word'}).get("title")

print(re.findall(r"(?<=bbox )(?:\d+ ){3}\d+", new))
1 голос
/ 14 января 2020

Самый простой способ сделать это, скорее всего, разделить текст точкой с запятой, чтобы получить все до этого. Затем вы можете разделить это снова и оставить только цифры c части.

from bs4 import BeautifulSoup

tag = "<span class = 'ocrx_word' id = 'word_1_45' title = 'bbox 369 429 301 123;x_wconf 96'>refrence</span>"
soup = BeautifulSoup(tag, 'html.parser')
s = soup.findAll('span')

for span in s:
    print([x  for x in span.attrs['title'].split(';')[0].split() if x.isdigit()])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...