Question

как я могу удалить ссылки из необработанного HTML-текста? Я получил:

Foo bar <a href="http://www.foo.com">blah</a> bar foo

и хочу получить:

Фу бар бла бар фу

после этого.

danlei · Answer 1 · 05 июля 2010

sed -re 's|<a [^>]*>([^<]*)</a>|\1|g'

Но ответ Брайана прав: это следует использовать только в очень простых случаях.

Brian Agnew · Answer 2 · 05 июля 2010

Вы хотите проанализировать HTML с помощью регулярных выражений, и это не будет работать во всех случаях, кроме простейших случаев , поскольку HTML не является регулярным. Гораздо более надежным решением является использование анализатора HTML. Существует множество различных языков.

ghostdog74 · Answer 3 · 05 июля 2010

$ echo 'Foo bar <a href="http://www.foo.com">blah</a> bar foo' | awk 'BEGIN{RS="</a>"}/<a href/{gsub(/<a href=\042.*\042>/,"")}1'

Фу бар бла бар фу

Удалить ссылки из текстового файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить ссылки из текстового файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы