скрытые символы в источнике HTML - PullRequest
0 голосов
/ 28 сентября 2018

В Python 3 (Pycharm) я начал с

import  selenium
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http.....')
pagesource = browser.page_source

Затем у меня есть

pagesource.replace('</b>', '')
pagesource.replace('<b>', '')

print (pagesource)

скрипт работает нормально, но в итоге вывод содержит " Address"

Я предполагаю, что есть некоторые скрытые символы, которые препятствуют удалению тегов.Как мне избавиться от этих персонажей?

1 Ответ

0 голосов
/ 28 сентября 2018

Вы не сохраняете замененную строку.

pagesource = pagesource.replace('</b>', '')
pagesource = pagesource.replace('<b>', '')
print (pagesource)

или

print (pagesource.replace('<b>', '').replace('</b>', ''))
...