当前位置: 首页 > 面试题库 >

带有HTML标题的Unicode问题,问号?65533;

齐宗清
2023-03-14
问题内容

我正在尝试从以下网页解析标题:http :
//kid37.blogger.de/stories/1670573/

当我在title元素上使用apache.commons.lang StringEscapeUtils.escapeHTML方法时,我得到以下信息

Das hermetische Caf�: Rock & Wrestling 2010

但是,当我在我的网页中以utf-8编码显示它时,它只会显示一个问号。

使用以下代码:

String title = StringEscapeUtils.escapeHtml(myTitle);

如果我通过以下网站运行标题:http :
//tools.devshed.com/?option=com_mechtools&tool=27我会得到以下输出,看上去似乎正确

标题:

<title>Das hermetische Café: Rock &amp; Wrestling 2010</title>

成为(我期待的是escapeHtml方法):

<title>Das hermetische Caf&eacute;: Rock &amp; Wrestling 2010</title>

有任何想法吗?谢谢


问题答案:

U + FFFD(十进制65533)是“替换字符”。当解码器遇到无效的字节序列时,它 可以 (取决于其配置)用``’‘替换损坏的序列并继续。

“损坏”序列的一个常见原因是应用了错误的解码器。例如,解码器可能是UTF-8,但是页面实际上是使用ISO-8859-1编码的(如果未在content-
type标头中指定其他名称或等效名称,则为默认值)。

因此,甚至在将字符串传递给之前escapeHtml,“é”已经被替换为“。”;该方法对此进行了正确编码。

有问题的页面使用ISO-8859-1编码。将获取的资源转换为时,请确保您正在使用该解码器String



 类似资料:
  • 我正试图解决一个用Spring Boot(Thymeleaf)制作的项目的问题。当我运行项目(作为Spring Boot应用程序运行)时,项目开始,但当我打开浏览器时,我可以看到以下布局: 如果在Eclipse上的项目文件夹中,我右键单击索引。html页面,我选择“打开与”和“网页浏览器”,网站的布局显示在正确的方式。 这是我的项目结构: 我做错什么了吗? 这里是我的项目的依赖关系:

  • 问题内容: 我想知道为什么HTML 标记没有像其他HTML标记那样获得结束标记,如果我们关闭输入标记会出现什么问题呢? 我尝试使用Google,但发现写这样的输入标签的标准没有用来 关闭它。 当我使用以下命令为按钮创建输入标签时,我个人感觉到了问题 尽管创建了单选按钮,但我将附加到单选按钮 不起作用。它只是显示单选按钮,在这种情况下不显示。虽然我可以看到完整的代码: 有人可以解释吗? PS :我遇

  • Microsoft Windows[版本10.0.18362.1016](c)2019 Microsoft Corporation。保留所有权利。

  • 总的来说,我的问题是我试图用WinnAppDriver自动化Windows 10应用程序,并用Python编写我的自动化程序。似乎很少有关于如何做到这一点的信息,因为大多数WinAppDriver示例都是用Java编写的(可以理解...).但是我对Python基本一无所知,对Java更是一无所知。因此...我错过了什么书或视频吗?具体来说,我安装了所有的东西(通过VS代码安装Python ),并实

  • 我需要调用MySQL存储过程从我的python脚本。作为参数之一,我传递一个Unicode字符串(俄语),但我得到一个错误; UnicodeEncodeError:“latin-1”编解码器无法对位置0-1中的字符进行编码:序号不在范围(256)内 我的脚本: 我已经读过设置可以解决这个问题,但是当我使用字符串时: 这给了我另一个错误; UnicodeEncodeError:'utf-8'编解码器

  • 我用一个简单的WebView做了一个应用程序;当我从我的webview打开“search.php”页面时,我触摸html select从不同类型的单词中进行选择…但是.休斯顿!我们有麻烦了!:d当我在输入字段中写出我需要的东西时,它是正常的,但是当我触摸(只触摸)选择字段来选择我需要的东西时(我可以选择几种本地类型,比如:酒吧、迪斯科、餐厅…等等…)我的应用崩溃了!我在问为什么?如果我把相同的ht