HTMLCLEANER处理西班牙语字符

宰父学

2023-03-14

我使用HtmlCleaner库来解析/转换java中的HTML文件。

似乎无法处理像“Áák NUÍíNU NU NU NU NU”这样的西班牙语字符

我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗？这是我用来调用它的代码：

CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);

共有2个答案

司空繁

2023-03-14

您可以将UTF-8更改为UTF-16。

它将支持最大字符数。

松越

2023-03-14

除非指定，否则HtmlCleaner使用从JVM读取的默认字符集。在Windows上，这将是Cp1512而不是UTF-8，这可能是它出错的地方。

你要么可以

在JVM起始行指定-Dfile.encoding=UTF-8

使用接受字符集的HtmlCleaner.clean（）重载

TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8");

（如果你在项目中有谷歌番石榴，你可以使用字符集UTF_8作为常数）

类似资料：

angularjs搜索并忽略西班牙语字符

问题内容：我在页面上添加了一个简单的排序。这个想法是搜索产品。这些产品是用西班牙语编写的，带有口音。例如：“Jamón”。这是我的代码：我唯一的问题是您必须输入“Jamón”才能找到产品“Jamón”。我想要的是更加灵活，如果用户键入“ Jamon”，则结果必须包含“Jamón”。如何使用角度过滤器进行搜索而忘记重音符号？任何想法？提前致谢。问题答案：您需要创建一个过滤器功能（或完整
72 西班牙布局

绝影是在宾馆里首先见到BOSSLiu的，见面第一句话他正要问：“BOSS啊，最近有啥研究成果没有？拿出来分享分享。”哪晓得这次被BOSSLiu抢了先，只不过这次他万分激动地说：“BOSS啊，我发现现在金子遍地都是，剩下的就是如何去拣了！” BOSSLiu一改往日的习惯，这反而让绝影不知如何应对了。比如写程序，以前习惯用_snprintf，现在突然又冒出个_snprintf_s来，一时间竟不知道从哪
FOP断字无法构建西班牙语模式

我使用的是FOP（2.3.0版）。当我尝试编译我从OFFO下载的西班牙语模式时，运行，我得到下一个错误：最后一行输出被重复无数次。其他模式编译起来没有问题，但是当我包含西班牙语模式时，构建过程崩溃了。为了确保文件没有损坏，我下载了一个更新版本的es.xml，但是ant仍然崩溃。
在mysql中插入西班牙语文本

我在Java执行HTTP GET调用以获取可能包含西班牙语字符的内容，例如:@añez 但我从MySQL-:'a:±ez得到的回应是，到目前为止，我在网上搜索并做了以下操作： > 在连接字符串中追加了utf-8作为编码（使用Java）jdbc:mysql:/localhost:3306/dbname？useUnicode=true&characterencoding=utf-8 更新了表的编码AL
NLTK使用语料库标记西班牙语单词

问题内容：我正在尝试学习如何使用NLTK标记西班牙语单词。从nltk的书中，使用它们的示例标记英语单词非常容易。因为我是nltk和所有语言处理的新手，所以我对如何进行程序感到很困惑。我已经下载了语料库。有没有办法指定一个语料库。我看了看文档，没有发现任何建议。我觉得我缺少一些关键概念。我是否需要在cess_esp语料库中手动标记文本中的单词？（通过手动，我的意思是标记我的情感，然后再次运行语
Java HtmlCleaner：不处理扩展ascii字符

我正在使用HTMLCleaner清理一个超文本标记语言文件，该文件具有像“€”（ascii decimal 128）、“TM”（ascii decimal 153）等字符。也就是说，来自ASCII扩展表的字符。 HTMLCleaner无法处理这些字符，并用字符“？”替换它们（ascii十进制63）。为了处理这些字符，我可以在HTMLCleaner中设置任何标志吗？提前感谢。编辑：变量“enc

HTMLCLEANER处理西班牙语字符

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档