Как удалить из строки? - PullRequest
       0

Как удалить из строки?

0 голосов
/ 21 февраля 2020

Я использую BeautifulSoup для чистки. На веб-сайте они используют ­ в заголовке.

Оригинальный html элемент: <h1 itemprop="name">Pen&shy;­ne met sa&shy;­la­&shy;­mi en broc&shy;­­co­&shy;­li</h1>

Когда я очищаю его, он возвращает это: «Pen�ne met sa�la Enmi en broc�co�li "

Каждый � - это &shy; в строке

Я пробовал string.replace ('\ u00AD', '') / string. заменить ('', ''), но это не сработало

import requests
from bs4 import BeautifulSoup
import mysql.connector

scrape_url = 'https://www.ah.nl/allerhande/recept/R-R377934/penne-met-salami-en-broccoli'
# get the data
data = requests.get(scrape_url)

#load the data into bs4
soup = BeautifulSoup(data.text, 'lxml')

titel = soup.find('h1').text
print(titel)

1 Ответ

3 голосов
/ 21 февраля 2020

Предполагая, что вы используете Python 3, мне удалось исправить это следующим образом:

s = '<h1 itemprop="name">Pen&shy;­ne met sa&shy;­la­&shy;­mi en broc&shy;­­co­&shy;­li</h1>'
s.replace("&shy", '').replace(";\xad","").replace("\xad","")

, что дало мне следующее:

'<h1 itemprop="name">Penne met salami en broccoli</h1>'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...