问题：

正则表达式HTML标记javascript

郑功

2023-03-14

我想验证输入的代码是否是HTML代码（必须以<代码>

我试着这么做

var reghtml = new RegExp("(<html>*\n+</html>)");

但是我有一个问题需要在代码中做一个\n，我需要验证第一个和结束标签（=

有什么解决办法吗？

共有2个答案

黄修永

2023-03-14

给你一个图案。它检查第一层是否有有效的开始和结束标记。第一级必须有结束标记，您不能执行<代码>

var validHtml = '\
<html itemscope>\
	<head></head>\
	<body style="background: red;">\
		Everything is fine\
	</body>\
</html>\
',
	invalidHtml = '\
<html itemscope>\
	<head></foot>\
	<body>\
		Nothing is fine\
	</body>\
</html>\
',
	pattern = /^\s*<html(?:\s[^>]*)?>(?:\s*<(\w+)(?:\s[^>]+)?>(?:.|\s)*<\/\1>\s*)*<\/html>\s*$/i;
	
console.log(pattern.test(validHtml) ? 'valid' : 'invalid');
console.log(pattern.test(invalidHtml) ? 'valid' : 'invalid');

公羊安怡

2023-03-14

您不应该使用正则表达式来验证超文本标记语言（更不用说解析它了），因为超文本标记语言不是“正则语言”。

下面是一个假阴性的例子，它会导致您可以编写的任何正则表达式尝试验证HTML以将其标记为无效：

<html>
<head>
    <!-- </html> -->
</head>
<body>
    <p>This is valid HTML</p>
</body>
</html>

因为您可以在超文本标记语言（以及SGML和XML）中嵌套注释，所以您也不能为这种特殊情况编写简单的正则表达式：

<html>
<head>
    <!-- <!-- <!-- <!-- </html> -->
</head>
<body>
    <p>This is valid HTML</p>
</body>
</html>

这里有一个误报（假设您不使用regex锚）：

<p>illegal element</p>
<html>
    <img>illegal text node</img>
</html>
<p>another illegal element</p>

诚然，有更强大的正则表达式实现为计数深度之类的东西增加了基本支持，但这样你就会陷入一个痛苦的世界。

验证HTML的正确方法是使用HTML DOM库。在里面NET这是HtmlAgilityPack。在基于浏览器的JavaScript中，它甚至更简单：只需使用浏览器的内置解析器（innerHTML）：

（从检查HTML片段是否对Javascript有效中窃取）

function isValidHtml(html) {
    var doc = document.implementation.createHTMLDocuiment("");
    doc.documentElement.innerHTML = html;
    return ( doc.documentElement.innerHTML === html );
}

正则表达式HTML标记javascript

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档