Разделить структуру HTML на массив тегов - PullRequest
0 голосов
/ 13 июня 2018

Я пытаюсь разделить HTML-файл на массив тегов. Цель состоит в том, чтобы затем добавить и добавить код ESC для окраски каждой строки в соответствии с тегом, а затем выплюнуть на консоль, и это будет цветcoded.

Я до сих пор могу извлекать каждый тег один за другим с помощью регулярных выражений (очевидно, это плохая идея), и моя идея заключалась в том, чтобы затем найти индекс этого тега и добавить / добавить escape-коды, но проблемаЯ столкнулся с несколькими тегами, которые выглядят одинаково, как два элемента рядом друг с другом.

код для циклического перебора тегов

var htmlTagRe = /<\/?[\w\s="/.':;#-\/]+>/gi;
const innerHTMLarr = text.match(htmlTagRe).reduce((prev, next) => {
    console.log('prev', prev)
    console.log('next', next)
    console.log()
    return next
});

однако это только выплевываетследующие и пропускает самозакрывающиеся теги, такие как <img />:

prev <html>
next <body>

prev <body>
next <div>

prev <div>
next </div>

prev </div>
next <p>

prev <p>
next </p>

prev </p>
next <p>

prev <p>
next </p>

prev </p>
next <div style="border: 1px solid red">

prev <div style="border: 1px solid red">
next <p>

prev <p>
next </p>

prev </p>
next <span>

prev <span>
next </span>

prev </span>
next </a>

prev </a>
next </div>

prev </div>
next </body>

prev </body>
next </html>

html файл

<html>
    <body>
        <div>text</div>
        <p>a paragraph</p>
        <p>a paragraph</p>
        <div style="border: 1px solid red">
            <p>another one</p><span>test</span>
            <a href="​http://google.com​">
                <img href="​http://site/img.jpg"​ />
            </a>
        </div>
    </body>
</html>

желаемый вывод

[
    '<html>',
    '<body>',
    '<div>text</div>',
    '<p>a paragraph</p>',
    '<p>a paragraph</p>',
    '<div style="border: 1px solid red">',
    '<p>another one</p>',
    '<span>test</span>',
    '<a href="​http://google.com​">',
    '<img href="​http://site/img.jpg"​ />',
    '</a>',
    '</div>',
    '</body>',
    '</html>',
]

1 Ответ

0 голосов
/ 15 июня 2018

Вы можете использовать jquery и рекурсивную функцию, но вам нужно экранировать символ «потому что он появляется».

Результат находится в консоли:

<!DOCTYPE html>
    
    <head>
    <title>Stack Overflow</title>
   <html>
    <body>
        <div>texteeee</div>
        <p>a paragraph</p>
        <p>a paragraph</p>
        <div style="border: 1px solid red">
            <p>another one</p>
			<span>test</span>
            <a href="​http://google.com​">
                <img href="​http://site/img.jpg"​ />
            </a>
        </div>
    </body>
</html>
    <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<script>
$(document).ready(function(){
var result = ['<html>','<body>'];
var lenght = $("body")[0].children.length;

for(var i=0; i< $("body")[0].children.length-1; i++){
	var ele =$("body")[0].children[i];
	if(ele.children.length <= 0 ) {
		var param = '';
		if(ele.attributes.length > 0) 
			param = ele.attributes[0].nodeName+'="'+ele.attributes[0].nodeValue+'"';
			console.log(param);
		result.push('<'+ele.nodeName+ ' ' + param+'>'+
		ele.innerHTML+
		'</'+ele.nodeName+'>');
	}else{
		result.push('<'+ele.nodeName+'>');
		recurs(ele);
		result.push('</'+ele.nodeName+'>');
		}
}

function recurs(ele){
for(var i=0; i< ele.children.length; i++){
	var eleRec=ele.children[i];
	if(eleRec.children.length <= 0 ) {
		var paramRec ='';
		if(ele.attributes.length > 0) 
			paramRec = ele.attributes[0].nodeName+'="'+ele.attributes[0].nodeValue+'"';
		result.push('<'+eleRec.nodeName+ ' ' + paramRec+'>'+
		eleRec.innerHTML+
		'</'+eleRec.nodeName+'>');
	}else{
		result.push('<'+eleRec.nodeName+'>');
		recurs(eleRec);
		result.push('</'+eleRec.nodeName+'>');
		}
	}
}

	
	result.push('<html>');
	result.push('<body>');
	
    console.log(result);
	
});
</script>
    </body>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...