如何过滤除特定白名单之外的所有HTML标签？

裴俊智

2023-03-14

问题内容：

这是用于.NET。设置了IgnoreCase，未设置MultiLine。

通常我在正则表达式方面很体面，也许我的咖啡因含量低…

允许用户输入HTML编码的实体（<lt;，<amp;等），并使用以下HTML标签：

u, i, b, h3, h4, br, a, img

允许自动关闭
和，带有或不带有额外的空间，但不是必需的。

我想要：

除去上面列出的那些标记之外的所有开始和结束HTML标记。
从其余标签中删除属性，但锚点可以具有href。

到目前为止，我的搜索模式（替换为空字符串）：

<(?!i|b|h3|h4|a|img|/i|/b|/h3|/h4|/a|/img)[^>]+>

除了开始和结束标签，这似乎正在剥离所有标签，但是存在三个问题：

必须包含每个允许标签的结束标签版本是很丑陋的。
属性得以保留。可以一次更换吗？
标签开始允许的标签名漏网之鱼。例如，“ ”和“ &amp;amp;rdquo;。

以下建议的模式不会去除没有属性的标记。

</?(?!i|b|h3|h4|a|img)\b[^>]*>

如下所述，“>”在属性值中是合法的，但是可以肯定地说我将不支持。另外，将没有CDATA块等需要担心的问题。只是一些HTML。

漏洞的答案是迄今为止最好的答案，谢谢！这是他的模式（希望PRE对我更有效）：

static string SanitizeHtml(string html)
{
    string acceptable = "script|link|title";
    string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>";
    return Regex.Replace(html, stringPattern, "sausage");
}

我认为仍可以对此答案进行一些小调整：

我认为可以对此进行修改以捕获简单的HTML注释（那些自身不包含标签的注释），方法是在“ acceptable”变量中添加“！-”，并对表达式的末尾进行少量更改以允许可选的尾随“ \ s–”。
我认为，如果属性之间存在多个空格字符（例如：格式很重的HTML，其中包含换行符和属性之间的制表符），则这会中断。

编辑2009-07-23： 这是我使用的最终解决方案（在VB.NET中）：

 Dim AcceptableTags As String = "i|b|u|sup|sub|ol|ul|li|br|h2|h3|h4|h5|span|div|p|a|img|blockquote"
 Dim WhiteListPattern As String = "</?(?(?=" & AcceptableTags & _
      ")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>"
 html = Regex.Replace(html, WhiteListPattern, "", RegExOptions.Compiled)

需要注意的是，A标签的HREF属性仍然被清除，这是不理想的。

问题答案：

这是我为此任务编写的函数：

static string SanitizeHtml(string html)
{
    string acceptable = "script|link|title";
    string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:(["",']?).*?\1?)?)*\s*/?>";
    return Regex.Replace(html, stringPattern, "sausage");
}

编辑：由于某种原因，我将对先前答案的更正发布为单独的答案，因此我在此处进行合并。

我会解释一下正则表达式，因为它有点长。

第一部分与右方括号匹配，并使用0或1斜杠（如果它是结束标记）。

接下来，您将看到一个if-then构造，并具有前瞻性。（？（？= SomeTag）then |
else）我正在检查字符串的下一部分是否是可接受的标签之一。您可以看到我将regex字符串与可接受的变量连接在一起，该变量是由竖线分隔的可接受的标记名，以便任何术语都可以匹配。如果匹配，则可以看到我输入了“
notag”一词，因为没有标签可以匹配它，如果可以接受，我想不加理会。否则，我将转到其他部分，在该部分我会匹配任何标签名称[az，AZ，0-9] +

接下来，我想匹配0个或多个属性，这些属性假定为attribute =“
value”形式。所以现在我将代表属性的那一部分分组，但是我使用？：来防止为速度而捕获该组：（？：\ s [az，AZ，0-9，-] + =？（？：（[“
“，’]？）。 ？\ 1？））

在这里，我从标签和属性名称之间的空白字符开始，然后匹配属性名称：[az，AZ，0-9，-] +

接下来，我匹配一个等号，然后再引用一个。我对报价进行了分组，以便将其捕获，以后可以\
1进行反向引用以匹配相同类型的报价。在这两个引号之间，您可以看到我使用句点来匹配任何内容，但是我使用的是惰性版本？而不是贪婪的版本，因此它将仅与将终止该值的下一个引号匹配。

接下来，我们在用圆括号括起来的组之后放一个*，以便它可以匹配多个属性/值组合（或不匹配）。最后，我们用\
s匹配一些空格，并在xml样式自闭标签的标签中将0或1的结尾斜杠匹配。

您可以看到我正在用香肠替换标签，因为我饿了，但是您也可以用空字符串替换它们以清除它们。

如何过滤除特定白名单之外的所有HTML标签？

相关阅读

相关文章

相关问答

相关工具

相关文档