Question

<span class = 'ocrx_word' id = 'word_1_45' title = 'bbox 369 429 301 123;x_wconf 96'>refrence</span>

как извлечь только код 369 429 301 123 из приведенного выше кода, используя python?

αԋɱҽԃ αмєяιcαη · Answer 1 · 14 января 2020

from bs4 import BeautifulSoup
import re

data = """<span class = 'ocrx_word' id = 'word_1_45' title = 'bbox 369 429 301 123;x_wconf 96'>refrence</span>
"""

soup = BeautifulSoup(data, 'html.parser')

new = soup.find("span", {'class': 'ocrx_word'}).get("title")

print(re.findall(r"(?<=bbox )(?:\d+ ){3}\d+", new))

Chris · Answer 2 · 14 января 2020

Самый простой способ сделать это, скорее всего, разделить текст точкой с запятой, чтобы получить все до этого. Затем вы можете разделить это снова и оставить только цифры c части.

from bs4 import BeautifulSoup

tag = "<span class = 'ocrx_word' id = 'word_1_45' title = 'bbox 369 429 301 123;x_wconf 96'>refrence</span>"
soup = BeautifulSoup(tag, 'html.parser')
s = soup.findAll('span')

for span in s:
    print([x  for x in span.attrs['title'].split(';')[0].split() if x.isdigit()])

Как получить координаты символов в документе html?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить координаты символов в документе html?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы