Groovy Split HTML с тегом и создать список - PullRequest
0 голосов
/ 27 февраля 2019

Я работаю с Groovy кода для разделения строки на массив.У меня есть следующая строка

string html = "<html><body><b>I like subway at\n\n</b>I like subway at\n\n";

Как получить список типа

List splitList = ['<html>','<body>','<b>','I like subway at\n\n','</b>','I like subway at\n\n']

Я использую следующее регулярное выражение, ссылающееся на stackoverflow-

List splittedList = html.split('(<\\/?\\w+(?:(?:\\s+\\w+(?:\\s*=\\s*(?:".*?"|\'.*?\'|[^\'">\\s]+))?)+\\s*|\\s*)\\/?>)')

Это неработа для заводной.Любая помощь будет оценена.Спасибо

1 Ответ

0 голосов
/ 04 марта 2019

Это немного запутанно, но я думаю, что вы получите большую часть пути без регулярного выражения:

html = """<html><body><b>I like subway at\n\n</b>I like subway at\n\n"""
new_html= html.replace('<','@<').replace('>','>@').replace('@@','@')
print(new_html.split('@')))

Вывод:

['', '<html>', '<body>', '<b>', 'I like subway at\n\n', '</b>', 'I like subway at\n\n']
...