问题：

使用Jsoup解析HTML div标记

云伯寅

2023-03-14

我试图从这些div标签中获取文本，但是它们都不返回任何内容:

HTML:

<div id="comments" class="part comments last"><script type="text/rocketscript" data-    rocketsrc="http://sabq.org/js/parts/comments/global.js?1324675506" data-      rocketoptimized="true"></script>
<h2 class="header">التعليقات (23)</h2>

<div id="comment_5946146" class="item
                                            ">
<h4 class="direction1">
<span class="serial">1</span> *محمد * </h4>
<p class="direction1"><span class="date-time">17 جمادى الأولى 1435 | 12:46 AM</span></p>
<p class="like-buttons">
<span class="like " title="أعجبني"><span class="value">5</span></span>
<span class="sep">-</span>
<span class="unlike " title="لم يعجبني"><span class="value">0</span></span>
<input type="hidden" name="class" value="Comment">
<input type="hidden" name="id" value="5946146">
</p>
<br clear="all">
<div class="message">هؤلاء أشخاص لم يجدوا سبيلاً لطلب الرزق إلا بهذه الطريقة فكفاكم تضييقاً وخناقاً عليهم حتى في مصادر رزقهم ....</div>

</div>

我想得到div类“消息”和h4标记和跨越“日期时间”中的文本，我试图：

document.select("div.message");

和：

document.select("div.comments").select("div.message");

但是他们没有成功。

共有1个答案

微生俊健

2023-03-14

用5个案例对你的html进行了测试，结果都很好，只是一个小小的注意-你正在使用＜code＞document.select（“div.message”）检索一个＜code＞Elements＜/code＞的集合，而不仅仅是单个＜code＞元素＜/code＞

代码:

 Document document = Jsoup.parse(new File("some.html"),"utf-8");
    Element message = document.select("div.message").first();
    Element span = document.select("span.date-time").first();
    Element comments = document.select("div.comments").first();
    Element h4 = document.select("h4.direction1").first();
    Element test = document.select("div.comments").select("div.message")
                    .first();

    System.out.println(message.text());
    System.out.println(span.text());
    System.out.println(comments.text());
    System.out.println(h4.text());
    System.out.println(test.text());

给;

م حتى في مصادر رزقهم ....
17 جمادى الأولى 1435 | 12:46 AM
التعليقات (23) 1 *محمد * 17 جمادى الأولى 1435 | 12:46 AM 5 - 0 هؤلاء أشخاص لم يجدوا سبيلاً لطلب الرزق إلا بهذه الطريقة فكفاكم تضييقاً وخناقاً عليهم حتى في مصادر رزقهم ....
1 *محمد *
هؤلاء أشخاص لم يجدوا سبيلاً لطلب الرزق إلا بهذه الطريقة فكفاكم تضييقاً وخناقاً عليهم حتى في مصادر رزقهم ....

PS：我使用.first（）来证明所用选择器的有效性，因为您的html具有唯一的非重复组合。如果每个选择器有多个结果，则可以循环访问集合并获取单个结果，例如：

Elements message = document.select("div.message");

for (Element el : message) 
    System.out.println(el.text());

编辑：

要从url进行分析，请执行以下操作：

改变

Document document = Jsoup.parse(new File("some.html"),"utf-8");

冯

Document document = Jsoup.connect("http://sabq.org/WzUfde").userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21").get();

这对我来说有用，不能在这里发布大量的输出，但是你可以为你的情况测试它。

类似资料：

使用 Jsoup 解析 dl 标记

我正在尝试解析
使用jsoup解析XML-防止jsoup“清除” 标签

问题内容：在大多数情况下，使用jsoup解析XML都没有问题。但是，如果有XML文档中的标签，jsoup将改变到。这样就无法使用CSS选择器提取标签内的文本。那么如何防止jsoup“清除” 标签呢？问题答案：在jsoup 1.6.2中，我添加了XML解析器模式，该模式可以按原样解析输入，而无需应用HTML5解析规则（元素内容，文档结构等）。此模式将文本保留在标签中，并允许其倍数等。这是
使用JSoup解析HTML

我想解析出这个Nasa页面上的描述，页面底部的文字我该怎么做？
使用jsoup解析html并删除标记块

问题内容：我想删除标签之间的所有内容。输入示例可能是输入：输出将是：基本上，我必须先删除整个区块谢谢，问题答案：您最好对找到的所有元素进行迭代。所以你可以保证 a。）所有元素都被删除并且 b。）如果没有元素，那么什么也做不了。例：编辑：（除了我的评论）当简单的 null /范围检查在这里足够时，请不要使用异常处理：代替：
JSoup-逐标记解析HTML标记

我实际上正在用Java开发一个文本解析器，有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件，一个包含文件中包含的所有单词，一个包括所有句子，另一个包含所有问题。 *.txt部分工作得很好，但我在解析HTML时遇到了一个问题。我创建了一个扩展名为*.txt的临时文件，并将其在我的文本解析器中传递，但是如果我传递一个带有HTML文件链接的URL，其格式如下所示：
Jsoup 使用DOM解析HTML

主要内容：Jsoup 使用DOM解析HTML 语法,Jsoup 使用DOM解析HTML 说明,Jsoup 使用DOM解析HTML 示例以下示例将展示在将 HTML 字符串解析为 Document 对象后如何使用类似 DOM 的方法。 Jsoup 使用DOM解析HTML 语法 document ：文档对象代表 HTML DOM。 Jsoup ：解析给定 HTML 字符串的主类。 html ： HTML 字符串。 sampleDiv ：元素对象表示由 id“sampleDiv”标识的 html

使用Jsoup解析HTML div标记

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档