Question

Я хочу вырезать  и  из строки (скажем, s).

Прямо сейчас я делаю это:

s.strip('"<p>""</p>"')

Я не совсем уверен, что то, что я делаю, правильно, но это было достаточно эффективно с большинством строк, которые я использовал.

Кроме того, я все еще получаю следующую строку: Here goes..

Есть ли другой эффективный способ раздеться? Это не нужно быстро или эффективно. Мне нужно что-то эффективное, чтобы сделать работу.

Контрольный пример

Скажем так:
s="Here goes.."

После выполнения необходимых операций на s, print s должно дать:
Here goes..

c089 · Answer 1 · 29 мая 2011

Если вы имеете дело с большим количеством HTML / XML, вы можете использовать синтаксический анализатор, чтобы легко и безопасно манипулировать им, вместо использования основных функций обработки строк.Мне действительно нравится BeautifulSoup для такого рода работы.Он работает с неверной разметкой и имеет действительно элегантный API.

В вашем примере вы можете использовать его следующим образом:

>>> soup = BeautifulSoup('<p>hello world</p>')
>>> soup.text
u'hello world'

bradley.ayers · Answer 2 · 29 мая 2011

Если вы не пытаетесь очистить XML / HTML, сработает следующее:

s = s.replace('<p>', '').replace('</p>', '')

Martijn Pieters · Answer 3 · 29 мая 2011

Вы пытаетесь убрать все значения, присутствующие в строке """", из ваших значений.strip обрабатывает это значение как set , оно удаляет любые ", <, p, / или > из вашей строки.

>>> s = 'Here goes "/p>'
>>> s.strip('"<p>""</p>"')
'Here goes '

Таким образом, использование strip (и rstrip и lstrip) подходит только в том случае, если вы хотите удалить наборы символов, а не многосимвольную строку в целом.

Если выЕсли вы хотите удалить  с начала и  с конца, вы можете использовать следующее:

if s.startswith('<p>'):
     s = s[3:]
if s.endswith('</p>'):
     s = s[:-4]

Если вам нужно удалить их из другого места в строке, вам нужно использовать s.replace:

s.replace('<p>', '').replace('</p>', '')

или вы можете посмотреть регулярные выражения.

utdemir · Answer 4 · 29 мая 2011

Для этого вы можете использовать регулярное выражение, только импорт и одну строку:

>>> import re
>>> s="text<p>text</p>text"
>>> re.sub("</?p>","",s)
'texttexttext'

Причиной сбоя split("") является попытка удалить <, /, pили >;не .

Python: Правильный способ вырезать <p>и </p> из строки?

Контрольный пример

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python: Правильный способ вырезать <p>и </p> из строки?

Контрольный пример

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов