当前位置: 首页 > 知识库问答 >
问题:

超文本标记语言解析使用JSoupJava

高运诚
2023-03-14
 <select id="list">
 <option value="0">First</option>
 <option value="1">Second</option>
 <option value="2">Third</option>
 </select>

对于上面的html内容,我如何使用Jsoup解析并获取文本

  First Second Third

当我使用

Document doc=Jsoup.parse(HTMLText);
String text=doc.text();
System.out.println(text);

我得到了这样的东西

FirstSecondThird

共有1个答案

廉志强
2023-03-14

您已经非常接近解决方案;只需选择您需要的元素并获取其文本:

    final String html = " <select id=\"list\">\n"
            + " <option value=\"0\">First</option>\n"
            + " <option value=\"1\">Second</option>\n"
            + " <option value=\"2\">Third</option>\n"
            + " </select>";

    Document doc = Jsoup.parse(html);
    String text = doc.select("option").text(); // Select all 'option' tags --> get text of them

    System.out.println(text);

结果:

First Second Third
 类似资料:
  • 我是新来的。我想解析html,但问题是我们必须在中指定的URL,我将在运行时从其他页面响应此URL。有没有办法将收到的网址传递到中?我读过这样的东西: 但是我不知道如何使用它。我很想知道是否有其他方法比jsoup更好。

  • 我有这个 我想从每个具有类“postrow”的div中提取以下内容,并且可能还有其他类,比如<code> < li >带有类标题的标记内的内容 < li >来自“blockquote”标记的HTML。但不包括该标签内的任何div。 我尝试的代码:

  • 请原谅我,这个问题已经被问了十亿次了——用Python解析超文本标记语言有哪些可用的选项,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?

  • 我正在尝试使用放心来检查服务器返回的HTML文档的一些属性。演示该问题的SSCCE如下所示: 现在,此尝试以,这是由所有可能的错误大约 30 秒左右后超时! 如果我用< code>xmlPathConfig()删除这一行。用()。功能(...)当特性“http://Apache . org/XML/features/disallow-DOCTYPE-decl”设置为true时,由于< code>D

  • 我有一些信息要在对话框中显示。它像标题,然后在它下面的文本;标题,然后在它下面的文本。像wise一样,有4个标题和4个描述要显示。它应该是这样的 描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述 描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述 如您所见,有粗体文本、下划线文本、换行符等。我想将这种文本添加到警报框中,所以下面是我尝试的。 然而,这个技巧没有奏效。发生的是,

  • 我试图在HTML的pre标签中包装文本,但它不起作用。我使用下面的CSS作为我的标签。 我从如何在pre标记中换行文本? 我已添加