我想解析出这个Nasa页面上的描述,页面底部的文字
我该怎么做?
首先,您需要连接到页面并将其解析为文档
(使您导入Jsoup文档),然后可以使用选择器API来选择所需的任何内容。
下面是一个例子:
// Connect to page and parse html into a 'Document'
Document doc = Jsoup.connect("http://photojournal.jpl.nasa.gov/catalog/PIA16465").get();
for( Element element : doc.select("p") ) // Select all 'p'-Tags and loop over them
{
if( element.hasText() ) // Check if the element has text (since there are some empty too)
{
System.out.println(element.text()); // print the element's text
}
}
for( Element element : doc.select("dd p") ) // Or: "dd > p"
{
if( element.hasText() )
{
System.out.println(element.text());
break;
}
}
你可以用类似这样的东西来代替循环:
Element firstTag = doc.select("dd p").first();
这将为您提供 dd 标签之后的第一个 p 标签。但在这里它不起作用,因为有许多空的p标签匹配它。但是,您可以使用正则表达式选择器(请参阅上面的链接)来解决此问题,但是对于第一个循环,循环更容易理解。
主要内容:Jsoup 使用DOM解析HTML 语法,Jsoup 使用DOM解析HTML 说明,Jsoup 使用DOM解析HTML 示例以下示例将展示在将 HTML 字符串解析为 Document 对象后如何使用类似 DOM 的方法。 Jsoup 使用DOM解析HTML 语法 document : 文档对象代表 HTML DOM。 Jsoup : 解析给定 HTML 字符串的主类。 html : HTML 字符串。 sampleDiv : 元素对象表示由 id“sampleDiv”标识的 html
问题内容: 这是我的HTML来源 这是我获取内容的Java程序,它过滤HTML标记 是否有使用Jsoup而不是使用Java而不是Regex解析HTML内容的简便方法 有没有办法只获取所需的内容。所以在这里我只需要内容“项目2-222” 问题答案: 尝试使用jsoup轻松解析: 要了解更多信息,请访问Jsoup Docs
问题内容: 在页面中,我想选择一个变量的值。以下是页面的摘要。 我的目的是使用来从此页面读取变量的值。有可能吗?如果是,那怎么办? 问题答案: 由于jsoup不是javascript库,因此有两种方法可以解决此问题: A.使用JavaScript库 优点: 全面的Javascript支持 缺点: 附加的天秤/依赖项 B.使用Jsoup +手动解析 优点: 无需额外的库 足以完成简单的任务 缺点:
问题内容: 我正在尝试使用jsoup解析HTML。这是我第一次使用jsoup,并且我也阅读了有关它的一些教程。以下是我要解析的HTML表- 如果您看到我的下表,则它现在有3个(我只是为了理解目的将其缩短为3个表行,但总的来说会更多)。现在,我想从我的下表中提取出它的对应信息,例如-我将提取其群集状态及其状态为关闭的所有主机名。 正如你可以看到下面的群集名称,我有两个主机名和其地位,但地位。 因此,
我试图从这些div标签中获取文本,但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本,我试图: 和: 但是他们没有成功。