当前位置：首页 > 专题 >

《jsoup》专题

Jsoup 介绍
Jsoup 是一个基于 Java 的库，用于处理基于 HTML 的内容。它提供了一个非常方便的 API 来提取和操作数据，使用最好的 DOM、CSS 和类似 jquery 的方法。它实现了 WHATWG HTML5 规范，并将 HTML 解析为与现代浏览器相同的 DOM。 Jsoup 库实现了 WHATWG HTML5 规范，并将 HTML 内容解析为与现代浏览器相同的 DOM。 Jsonp 库提
JSOUP中的UserAgent？
问题内容：我在代码中到处都有。设置为Mozilla。如果我要将其设置为 Google Chrome或Opera，该怎么办？我怎样才能做到这一点？提前致谢。问题答案：去那里： http://www.useragentstring.com/pages/Opera/ 或 http://www.useragentstring.com/pages/Chrome/ 并获得您喜欢的一个。例如：
jsoup没有获得完整的数据
问题内容：我有一个学校项目，可以解析网络代码并将其像数据库一样使用。当我尝试从（https://www.marathonbet.com/en/betting/Football/）提取数据时，我没有全部了解吗？这是我的代码：获得的结果（这是显示的联赛的最后一个）：在她上面显示所有联赛。为什么我没有完整的数据？感谢您的时间！问题答案： Jsoup的默认正文响应限制为1MB。您可以使用 ma
JSoup-选择所有评论
问题内容：我想使用JSoup从文档中选择所有注释。我想做这样的事情：我已经试过了： } 但是在日食“不兼容的条件操作数类型元素和注释”中发生以下错误。干杯，问题答案：由于您需要应用到节点对象，而不是元素，因此：
jsoup的奇怪编码行为
问题内容：我使用jsoup从不同页面的html源代码中提取了一些信息。它们大多数是UTF-8编码的。其中之一是使用ISO-8859-1编码的，这会导致一个奇怪的错误（在我看来）。包含错误的页面是：http : //www.gudi.ch/armbanduhr- metall- wasserdicht-1280x960-megapixels-p-560.html 我用以下代码阅读了所需的Stri
jsoup-从Wikipedia文章中提取文本
问题内容：我正在编写一些Java代码，以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取Wikipedia文章的所有文本（例如，http://en.wikipedia.org/wiki/Boston中的所有文本）？问题答案：当然，您可以通过这种方式检索格式化的内容。如果您想要“原始”内容，则可以使用或使用call 过滤结果。
apache.httpclient能够获取内容时，JSoup.connect引发403错误
问题内容：我正在尝试解析任何给定页面的HTML转储。我使用了HTML Parser ，还尝试了JSoup进行解析。我在Jsoup中找到了有用的功能，但调用时却收到403错误我尝试使用HTTPClient来获取html转储，并且对于相同的url成功。为什么JSoup会为403提供相同的URL，而该URL正在提供来自Commons HTTP客户端的内容？难道我做错了什么？有什么想法吗？问题答
如何使用Jsoup删除硬空间？
问题内容：我正在尝试从HTML中的实体中删除硬空间。我无法使用或删除它，等等！我不明白我什至在Stackoverflow上找到了可以尝试的方法，但两者均无济于事。我尝试了此操作（因为返回实际的硬空格字符U + 00A0 ）：但是我不知道为什么不能使用删除空白。问题答案：您的第一次尝试几乎是这样，您完全可以将Jsoup映射到U + 00A0。您只是不希望字符串中使用双反斜杠：不使用
如何解决jsoup错误：无法找到到请求目标的有效证书路径
问题内容：我正在尝试解析以下URL的html： https://www.smuc.ac.kr/mbs/smuc/jsp/board/list.jsp?boardId=6993&id=smuc_040100000000 我收到以下错误：这是我的代码：问题答案：由于JSoup在1.12.1版（https://jsoup.org/news/release-1.12.1）中已弃用并删除了valid
如何在jsoup中获取元素的一级子级
问题内容：在jsoup中，返回Element的所有子代（后代）。但是，我想要Element的一级子级（直系子级）。我可以使用哪种方法？问题答案： Element.children（）仅返回直接子代。由于您将它们绑定到树上，因此它们也有孩子。如果需要直接子元素而没有底层树结构，则需要按以下方式创建它们输出量
使用Jsoup打开连接，获取状态代码并解析文档
问题内容：我正在使用jsoup创建一个类，该类将执行以下操作：构造函数将打开与url的连接。我有一种方法可以检查页面状态。即200、404等。我有一种解析页面并返回网址列表的方法。下面是我要做的工作的粗略工作，而不是因为我尝试了许多不同的事情而变得很粗糙如您所见，我可以获取页面状态，但是使用构造函数中已经打开的连接，我不知道如何解析文档，我尝试使用：但这是不行的。有什么建议？还是更好
Jsoup：如何获取2个标题标签之间的所有html
问题内容：我正在尝试获取2 h1标签之间的所有html。实际的任务是根据h1（heading 1）标签将html分成几帧。感谢任何帮助。谢谢苏尼尔问题答案：如果要获取和处理两个连续标签之间的所有元素，则可以处理同级对象。这是一些示例代码：
具有自定义CSS的Android Studio Webview（jsoup）
我想加载facebook。com在webview中使用自定义CSS来更改一些内容。我使用jsoup，但每次启动应用程序时都会崩溃。这是我的代码： Logcat输出 FATAL EXCEPTION： main Process：android.app.， PID： 23936hread.mainRuntimeException：无法启动活动ComponentInfo{hread.java:5417}
获取URL时出现Jsoup HTTP错误。状态=403，当进行后期请愿时
我一直在寻找这个问题，假设这个问题是使用用户代理修复的，但事实并非如此<我要做的是从请愿书中取出cookies，这是代码程序在第
如何解决HTTP错误获取URL。status=503 JSOUP（我尝试了所有解决方案）
在我的大数据项目中，我必须开发一个JSOUP脚本来获取巴黎2018年气象数据并存储它们我尝试了user\u Agent的所有解决方案，但都有相同的错误（URL在浏览器上工作）错误显示在第8天，这样他可以在8次请求后检测到这是一个机器人。

首页

4

5

6

7

8

9

10

11

12

尾页

最新发布

腾讯IEG测开一面数字马力（长沙）测开一面（考研失利）小鹏汽车测试滴滴测开日常一面+二面酷家乐测开三面凉经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

前端 - 有什么安卓自动化工具可以实现微信小程序的自动化签到？前端 - SwiftUI ScrollView 内含 Button 无法检测滚动怎么办？是swiftui的bug吗？javascript - 如何解决浏览器清除缓存导致axios请求404？前端 - 请问React（或者zustand）中是否可以对已经存在的状态做监听生成一个新的状态？javascript - antd表头搜索切换表数据后无法清除搜索内容，该怎么解决？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

照片浏览 process-monitor weboob ApiChassis Launchpad netgraph OptiKey iforums

文档资料

Apache Ant 入门教程 Nunjuck 中文文档小米智能硬件开放平台智能硬件接入文档 CanalSharp 中文文档算法系列15天速成