当前位置: 首页 > 面试题库 >

如何在Java中将HTML转换为UTF-8

朱阳晖
2023-03-14
问题内容

我有一个带有HTML实体的ASCII字符串,例如:

 à
 ¨
 ç

我需要此字符串不包含那些实体,并将其转换为UTF-8字符。有没有简单的方法,在Java中可以做到这一点?

哪里:

 Clazz.method("aà","UTF-8")

返回“aà”

或类似的东西?


问题答案:

看一下org.apache.commons.lang.StringEscapeUtils.unescapeHtml(…)。显然,它可以理解HTML
4中定义的所有字符实体。



 类似资料:
  • 问题内容: 我们有一个系统,客户(主要是欧洲人)输入的文本(使用UTF-8)必须分发到不同的系统,其中大多数接受UTF-8,但是现在我们还必须将文本分发到仅接受美国的美国系统。 -Ascii 7位 因此,现在我们需要将所有欧洲字符翻译成最近的美国Ascii。是否有任何Java库可帮助完成此任务? 现在,我们刚刚开始添加到转换表中,在该表中Å(瑞典AA)-> A等,在找不到与输入字符匹配的位置的情况

  • 将编码传递到UTF-8后,我无法在Windows-1252中显示字符串。 我被迫在init中转换为UTF-8 我想将我的字符串转换为Windows-1252字符以显示它: 我正在得到这个结果 如何获得正确的以下结果? 谢谢! 当做

  • 问题内容: 我正在阅读XML文档(UTF-8),并最终使用ISO-8859-1在网页上显示内容。正如预期的那样,有几个字符显示不正确,比如,和(他们显示为?)。 是否可以将这些字符从UTF-8转换为ISO-8859-1? 这是我编写的尝试此功能的代码段: 我不太确定发生了什么问题,但是我认为是re​​adLine()引起了麻烦(因为字符串将是Java / UTF-16编码的?)。我尝试的另一种变化

  • 我有一个从第三方应用程序收到的字符串,我希望在我的Windows界面上使用C#以任何语言正确显示它。 由于编码不正确,我的字符串中有一段在西班牙语中如下所示: AcciÃn 然而它应该看起来像这样: 阿克松 根据这个问题的答案:如何知道C#中的字符串编码,我接收到的编码应该已经在UTF-8中出现了,但它是在编码时读取的。默认值(可能是ANSI?)。 我试图将这个字符串转换成真正的UTF-8,但问题

  • 问题内容: 我维护着一个公告板,用于将富文本消息保存为HTML。现在,我需要将所有这些消息迁移到需要HTML的BBCode表示的Joomla Kunena公告板上。 是否有任何库可以将HTML干净地转换为BBCode。有大量的脚本,可以将BBCode转换为HTML,但是没有相反的方法。 谢谢… 问题答案: 它应该可以在 文本输出模式下 与XSLT一起 使用 : 要到达那里,解析HTML并使用内置的

  • 问题内容: 我无法在Android中将字符串转换为UTF-8。请帮我!! 结果: 但是“ ”应该编码为“ ” 问题答案: 在http://developer.android.com/reference/java/net/URLEncoder.html中,您可以了解到您使用的已弃用,应该使用 所以应该做到这一点。