当前位置: 首页 > 知识库问答 >
问题:

Java HtmlCleaner:不处理扩展ascii字符

亢仰岳
2023-03-14

我正在使用HTMLCleaner清理一个超文本标记语言文件,该文件具有像“€”(ascii decimal 128)、“TM”(ascii decimal 153)等字符。也就是说,来自ASCII扩展表的字符。

HTMLCleaner无法处理这些字符,并用字符“?”替换它们(ascii十进制63)。

为了处理这些字符,我可以在HTMLCleaner中设置任何标志吗?

提前感谢。

编辑:变量“encoding”是“iso-8859-1”,就像源文件编码一样。

    try {
        System.out.print("Parsing and cleaning:" + fileStr);
        URL url = new File(this.fileStr).toURI().toURL();
        // create an instance of HtmlCleaner
        HtmlCleaner cleaner = new HtmlCleaner();
        // default properties
        CleanerProperties props = cleaner.getProperties();
        // do parsing
        TagNode tagNode = new HtmlCleaner(props).clean(url);
        // serialize to XML file
        new PrettyXmlSerializer(props).writeToFile(tagNode, fileStr,
                encoding);
        System.out.println("Output: " + fileStr);
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }

我刚刚弄明白了。线路:

TagNode tagNode = new HtmlCleaner(props).clean(url);

应替换为:

TagNode tagNode = new HtmlCleaner(props).clean(url, encoding);

其中“encoding”是源url字符集的字符串表示形式。

非常感谢。

共有1个答案

许昆
2023-03-14

您是否尝试设置字符集?

 类似资料:
  • 问题内容: 我的Go Web应用程序中有一个相当快捷的错误处理程序,它会引发HTTP错误,记录响应的重要部分并提供错误模板。我想删除在处理程序中多次编写类似代码的重复: 我已经阅读了Error Handling and Go文章,其中定义了一个自定义HTTP处理程序类型,该类型将返回这样的错误类型/结构(甚至返回int,err): 但是我不确定如何保留现有的中间件功能/包装,使我可以像这样链接中间

  • 很多批处理问题都可以通过单进程、单线程的工作模式来完成, 所以在想要做一个复杂设计和实现之前,请审查你是否真的需要那些超级复杂的实现。 衡量实际作业(job)的性能,看看最简单的实现是否能满足需求: 即便是最普通的硬件,也可以在一分钟内读写上百MB数据文件。 当你准备使用并行处理技术来实现批处理作业时,Spring Batch提供一系列选择,本章将对他们进行讲述,虽然某些功能不在本章中涵盖。从高层

  • 4.1扩展断点处理 在前面的章节中我们讲解了用事件处理函数处理调试事件的方法。用 PyDbg 可以很容 易的扩展这种功能,只需要构建一个用户模式的回调函数。当收到一个调试事件的时候,回 调函数执行我们定义的操作。比如读取特定地址的数据,设置更更多的断点,操作内存。操 作完成后,再将权限交还给调试器,恢复被调试的进程。 PyDbg 设置函数的断点原型如下: bp_set(address, descr

  • 问题内容: 我已从提供回调来跟踪提交给的任务的执行。 现在,我看到的是任务是否已提交,但最终进入队列,并且任务仍被调用(方法仍然被调用),并且(可能)检查任务已取消且未调用包装的可调用对象。 我应该做例如 还是应该打电话给我?在检查取消和对其进行任何操作之间,这两种方法似乎都容易受到比赛条件的影响。 问题答案: 您说对了,那是对的。系统 最多 会调用 一次 ,因此如果任务在通过运行之前已被取消,您

  • Spring Batch也为Step的分区执行和远程执行提供了一个SPI(服务提供者接口)。在这种情况下,远端的执行程序只是一些简单的Step实例,配置和使用方式都和本机处理一样容易。下面是一幅实际的模型示意图: 在左侧执行的作业(Job)是串行的Steps,而中间的那一个Step被标记为 Master。图中的 Slave 都是一个Step的相同实例,对于作业来说,这些Slave的执行结果实际上等

  • 我正在尝试使用附带的工具调试模糊代码中的异常。模糊标识符使用非ASCII字符,至少在生成的映射文件中是这样的,例如: 当我试图从设备导出堆栈跟踪以便将其馈送到时,这会造成问题。我的模糊设置是否有问题,或者使用非ASCII字符是否正常?如果是这样,我应该如何从设备导出堆栈跟踪以保留它们? 编辑:我后来发现了一种解决办法,它是以的形式输出二进制日志。这会导致日志文件有点难以读取,但堆栈跟踪中确实包含正