我试图从html文件中获取内容,该文件位于html中。gz文件。当我尝试使用Jsoup点击URL时,我得到:
线程“main”til.readEOFException中的异常:til.java:154InflaterInputSorg.jsoup.helper.(InflaterInputSesponse.execute)onnection.java:560InflaterInputSorg.jsoup.helper.(InflaterInputSesponse.execute)onnection.java:493GZIPInputSorg.jsoup.helper.(GZIPInputSonnection.execute)onnection.java:205BufferedInputSorg.jsoup.helper.1(BufferedInputSonnection.get)java.io.BufferedInputStream.read(BufferedInputStream.java:334)java.io.FilterInputStream.read(FilterInputStream.java:107)org.jsoup.helper.数据java.io.ToByteBuffer(DataUjava.util.zip.)tream.fillHttpConnection$Rtream.java:240(HttpCjava.util.zip.)tream.readHttpConnection$Rtream.java:158(HttpCjava.util.zip.)tream.readHttpCtream.java:116(HttpCjava.io.)tream.readHttpCtream.java:273(HttpConnec. java: 194)
我的代码如下所示:
Document doc= Jsoup.connect("http://XXXXXXX_BIZ_Jun17_10:02:17.html.gz").get();
尝试手动下载压缩文件。然后试着用7zip这样的工具打开它。通过这种方式,您可以检查html是否正确。gz文件是有效的。
>
如果文件无效,那么Jsoup不是罪魁祸首,请停止
如果文件有效,请跳到步骤2
启动您最喜欢的浏览器并在网络选项卡上打开其开发人员控制台。下载html.gz文件并观察浏览器交换的标头。将您可能错过的标头添加到代码中。
我正在使用Julia的ZipFile包来提取和处理csv文件。没问题,但是当我遇到zip文件中的zip文件时,我也想处理它,但是遇到了一个错误。 Julia ZipFile文档如下:https://zipfilejl.readthedocs.io/en/latest/ 对如何做到这一点有什么想法吗?
主要内容:Jsoup 读取文件获取HTML 语法,Jsoup 读取文件获取HTML 说明,Jsoup 读取文件获取HTML 示例以下示例将展示使用文件从磁盘获取 HTML,然后查找其数据。 Jsoup 读取文件获取HTML 语法 document : 文档对象代表 HTML DOM。 Jsoup : 连接 url 并获取 HTML 字符串的主类。 url : 要加载的 html 页面的 url。 Jsoup 读取文件获取HTML 说明 connect(url) 方法建立到 url 的连接,get
问题内容: 如何更改压缩文件的以下命令? 该命令可以正常使用正常文件。我需要更改压缩文件的命令。 问题答案: 您需要像这样读取它们的压缩文件: 尝试这个:
常用压缩包—解压—令整理 Linux 后缀为 .war 格式的文件(一般用在部署 Tomcat 项目的时候) 命令:unzip -oq XXXXXX.war -d ROOT 如果没有 ROOT 目录会自动创建 ROOT 目录。 Linux 后缀为 .tar.gz 格式的文件-解压 命令:tar zxvf XXXXXX.tar.gz Linux 后缀为 .bz2 格式的文件-解压 命令:bzip2
问题内容: 我想从csv(文本)文件逐行读取(在Python 2.7中),该文件是7z压缩的。我不想解压缩整个(大)文件,而是流线。 我尝试失败。我收到数据错误。请注意,此代码尚未逐行读取: 输出: 问题答案: 这将允许您迭代行。它部分源自我在另一个问题的答案中找到的一些代码。 在该时间点(),该模块未实现允许将存档成员作为字节流或字符流读取的API-其类仅提供了一次解压缩并返回成员中未压缩数据的
问题内容: 任何人都可以向我展示在我一直在搜索的Java中压缩和解压缩tar.gzip文件的正确方法,但是我能找到的最多是zip或gzip(单独)。 问题答案: 我最喜欢的是plexus-archiver-请参阅GitHub上的资源。 另一个选项是Apache commons- compress- (请参阅mvnrepository)。 使用plexus-utils,用于取消存档的代码如下所示: