Как захватить данные в необычном теге span с BS4? - PullRequest
0 голосов
/ 07 апреля 2019

Я работаю над тем, чтобы почистить сайт для работы, и я не могу заставить Красивый суп скрести определенный текст между необычными тегами.

Я просто искал тег span, и он обнаруживается в результатах, однако вскоре я не могу отобразить определенные слова, используя re.compile.

Это фрагмент HTML

ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" 

И этот код работает при очистке всех тегов span

soup.find_all('span')

Однако, когда я использую что-то вроде

soup.find_all('span', {re.compile('Passed|Failed')}):

Похоже, что не дает результатов

Я тоже пытался

soup.find_all('span', {'test-case-result status-2': re.compile('Passed|Failed')})

Ожидается - все экземпляры Pass и Fail будут очищены

Факт. Все попытки очистки, кроме использования только разметки, выглядят пустыми.

Я уверен, что это просто, и я что-то упустил, но я действительно изо всех сил пытаюсь продвинуться дальше с документацией. Спасибо за вашу помощь.

Ответы [ 2 ]

1 голос
/ 07 апреля 2019

Используйте text= в find_all()

soup.find_all('span', text=re.compile('Passed|Failed'))

Без text= можно использовать regex для поиска по имени тега.

0 голосов
/ 07 апреля 2019

С bs 4.7.1 я бы избегал регулярных выражений и использовал бы :contains псевдокласс

from bs4 import BeautifulSoup
html = '''
  ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}"
  '''
soup = BeautifulSoup(html, 'lxml')

spans =  soup.select('span:contains(Passed),span:contains(Failed)')
print(spans)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...