Jsoup 是一个基于 Java 的库,用于处理基于 HTML 的内容。它提供了一个非常方便的 API 来提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。它实现了 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。 Jsoup 库实现了 WHATWG HTML5 规范,并将 HTML 内容解析为与现代浏览器相同的 DOM。 Jsonp 库提
问题内容: 我在代码中到处都有。 设置为Mozilla。 如果我要将其设置为 Google Chrome或Opera,该怎么办? 我怎样才能做到这一点?提前致谢。 问题答案: 去那里 : http://www.useragentstring.com/pages/Opera/ 或 http://www.useragentstring.com/pages/Chrome/ 并获得您喜欢的一个。 例如:
问题内容: 我有一个学校项目,可以解析网络代码并将其像数据库一样使用。当我尝试从(https://www.marathonbet.com/en/betting/Football/)提取数据时,我没有全部了解吗? 这是我的代码: 获得的结果(这是显示的联赛的最后一个): 在她上面显示所有联赛。 为什么我没有完整的数据?感谢您的时间! 问题答案: Jsoup的默认正文响应限制为1MB。您可以使用 ma
问题内容: 我想使用JSoup从文档中选择所有注释。我想做这样的事情: 我已经试过了: } 但是在日食“不兼容的条件操作数类型元素和注释”中发生以下错误。 干杯, 问题答案: 由于您需要应用到节点对象,而不是元素,因此:
问题内容: 我使用jsoup从不同页面的html源代码中提取了一些信息。它们大多数是UTF-8编码的。其中之一是使用ISO-8859-1编码的,这会导致一个奇怪的错误(在我看来)。 包含错误的页面是:http : //www.gudi.ch/armbanduhr- metall- wasserdicht-1280x960-megapixels-p-560.html 我用以下代码阅读了所需的Stri
问题内容: 我正在编写一些Java代码,以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取Wikipedia文章的所有文本(例如,http://en.wikipedia.org/wiki/Boston中的所有文本)? 问题答案: 当然,您可以通过这种方式检索格式化的内容。如果您想要“原始”内容,则可以使用或使用call 过滤结果。
问题内容: 我正在尝试解析任何给定页面的HTML转储。我使用了HTML Parser ,还尝试了JSoup进行解析。 我在Jsoup中找到了有用的功能,但调用时却收到403错误 我尝试使用HTTPClient来获取html转储,并且对于相同的url成功。 为什么JSoup会为403提供相同的URL,而该URL正在提供来自Commons HTTP客户端的内容?难道我做错了什么?有什么想法吗? 问题答
问题内容: 我正在尝试从HTML中的实体中删除硬空间。我无法使用或删除它,等等!我不明白 我什至在Stackoverflow上找到了可以尝试的方法,但两者均无济于事。 我尝试了此操作(因为返回实际的硬空格字符U + 00A0 ): 但是我不知道为什么不能使用删除空白。 问题答案: 您的第一次尝试 几乎是 这样,您完全可以将Jsoup映射到U + 00A0。您只是不希望字符串中使用双反斜杠: 不使用
问题内容: 我正在尝试解析以下URL的html: https://www.smuc.ac.kr/mbs/smuc/jsp/board/list.jsp?boardId=6993&id=smuc_040100000000 我收到以下错误: 这是我的代码: 问题答案: 由于JSoup在1.12.1版(https://jsoup.org/news/release-1.12.1)中已弃用并删除了valid
问题内容: 在jsoup中,返回Element的所有子代(后代)。但是,我想要Element的一级子级(直系子级)。 我可以使用哪种方法? 问题答案: Element.children()仅返回直接子代。由于您将它们绑定到树上,因此它们也有孩子。 如果需要直接子元素而没有底层树结构,则需要按以下方式创建它们 输出量
问题内容: 我正在使用jsoup创建一个类,该类将执行以下操作: 构造函数将打开与url的连接。 我有一种方法可以检查页面状态。即200、404等。 我有一种解析页面并返回网址列表的方法。 下面是我要做的工作的粗略工作,而不是因为我尝试了许多不同的事情而变得很粗糙 如您所见,我可以获取页面状态,但是使用构造函数中已经打开的连接,我不知道如何解析文档,我尝试使用: 但这是不行的。有什么建议?还是更好
问题内容: 我正在尝试获取2 h1标签之间的所有html。实际的任务是根据h1(heading 1)标签将html分成几帧。 感谢任何帮助。 谢谢苏尼尔 问题答案: 如果要获取和处理两个连续标签之间的所有元素,则可以处理同级对象。这是一些示例代码:
我想加载facebook。com在webview中使用自定义CSS来更改一些内容。我使用jsoup,但每次启动应用程序时都会崩溃。 这是我的代码: Logcat输出 FATAL EXCEPTION: main Process:android.app., PID: 23936hread.mainRuntimeException:无法启动活动ComponentInfo{hread.java:5417}
我一直在寻找这个问题,假设这个问题是使用用户代理修复的,但事实并非如此<我要做的是从请愿书中取出cookies,这是代码 程序在第
在我的大数据项目中,我必须开发一个JSOUP脚本来获取巴黎2018年气象数据并存储它们 我尝试了user\u Agent的所有解决方案,但都有相同的错误(URL在浏览器上工作) 错误显示在第8天,这样他可以在8次请求后检测到这是一个机器人。