У меня есть набор очищенных страниц, которые я должен использовать (не могу снова их обработать), которые содержат метаинформацию в цитируемых тегах < >
, подобных этим:
...
<span class="html-tag">
<meta <span class="html-attribute-name">name</span>="
<span class="html-attribute-value">twitter:title</span>"
<span class="html-attribute-name">property</span>="
<span class="html-attribute-value">og:title</span>"
<span class="html-attribute-name">content</span>="
<span class="html-attribute-value">Smart TV wifi won't turn on</span>" />
...
<meta <span class="html-attribute-name">property</span>="
<span class="html-attribute-value">og:url</span>"
<span class="html-attribute-name">content</span>="
<span class="html-attribute-value">
https://x.y.org/discussion/437/smart-tv-wifi-wont-turn-on</span>" />
...
Обновление 3 :
Эти строки, загруженные в Chrome, выглядят следующим образом:
<meta name="twitter:title" property="og:title" content="Smart TV wifi won't turn on" />
<meta property="og:url" content="https://x.y.org/discussion/437/lg-smart-tv-wifi-wont-turn-on" />
все же необработанный текст вместо тегов <meta>
имеет <meta .... >meta
Можно ли получить контент из тегов <meta .... >meta
с BeautifulSoup? Как и в этом случае, мне нужно получить "Smart TV wifi не включается" и URL " https://x.y.org/discussion/437/smart-tv-wifi-wont-turn-on "Как это сделать?