问题：

使用JSoup for Java从网页中提取特定行

叶恩

2023-03-14

Document doc = null;
try {
doc = Jsoup.connect("http://www.example.com").get();
} catch (IOException e) {
e.printStackTrace();
}
String text = doc.html();

System.out.println(text);

打印出以下内容

<html>
 <head></head>
 <body>
  Martin,James,28,London,20k
  <br /> Sarah,Jackson,43,Glasgow,32k
  <br /> Alex,Cook,22,Liverpool,18k
  <br /> Jessica,Adams,34,London,27k
  <br /> 
 </body>
</html>

我如何只提取第6行，即Alex,Cook,22,Liverpool,18K并将其放入一个数组中，其中每个元素都是逗号前的单词（例如:[0]=Alex,[1]=Cook等）

共有1个答案

裴展

2023-03-14

    Document doc = Jsoup.connect("http://www.example.com").get();
    int count = 0; // Count Nodes

    for( Node n : doc.body().childNodes() )
    {
        if( n instanceof TextNode )
        {
            if( count == 2 ) // Node 'Alex'
            {
                String t[] = n.toString().split(","); // you have an array with each word as string now

                System.out.println(Arrays.toString(t)); // eg. output
            }
            count++;
        }
    }

[ Alex, Cook, 22, Liverpool, 18k ]

for( Node n : doc.body().childNodes() )
{
    if( n instanceof TextNode )
    {
        str = n.toString().trim();

        if( str.toLowerCase().startsWith("alex") ) // Node 'Alex'
        {
            String t[] = n.toString().split(","); // you have an array with each word as string now

            System.out.println(Arrays.toString(t)); // eg. output
        }
    }
}

类似资料：

仅提取特定页面中使用的CSS

问题内容：假设您有一个动态生成的网站，过去和现在都有太多人在使用该网站，现在您有了一个包含20,000行CSS的共享样式表集合。它根本没有组织，有一些基于类和基于id的选择器，但也有太多基于标签的选择器。然后说您有100个通过某种控制器使用这些样式的模板。是否有一个工具（可能类似于Firebug）可以指向一个URL，它将确定该页面的所有适用CSS选择器并将其转储到文件中？基本上是一种逐页撕开共
从网页中提取链接

问题内容：使用Java，如何从给定的网页中提取所有链接？问题答案：将Java文件下载为纯文本/ html格式，并通过Jsoup或 html clean传递，两者相似，甚至可以用于解析格式错误的html 4.0语法，然后可以使用流行的HTML DOM解析方法，例如getElementsByName（“ a”）或在jsoup中它甚至很酷，您只需使用并找到所有链接，然后使用取自http://j
使用Python从多个网页中提取日期

我想提取新闻文章在网站上发表的日期。对于某些网站，我有确切的html元素，其中日期/时间为（div，p，time），但在某些网站上，我没有：以下是一些网站（德国网站）的链接：（2020年11月3日）http://www.linden.ch/de/aktuelles/aktuellesinformationen/?action=showinfo （2020年12月1日）http://www.re
使用python LXML从html网页中提取信息

我正在尝试制作一个python脚本，用我所拥有的有限知识从一个网页中刮取特定的信息。但我想我有限的知识是不够的。我需要提取7-8条信息。标签如下- 1 我已使用此代码开始
如何从网页中提取文本？

我有一个Excel工作表，其中一栏填充了专利号。我需要提取每个相应专利的标题，并将其放在专利号旁边的单元格中。因此，代码应执行以下操作：访问espacenet.com并打开需要名称的专利号。获取标题。将其放在所需单元格的Excel工作表中。这是一个完美适用于第一个专利号的代码，但在这之后会立即出现错误。错误显示：“运行时错误'-2147417848（80010108）'：自动化错误调用的
从JSON中提取特定元素

我有一个JSON如下有没有什么方法可以直接将“ID”的值提取到变量中，而不需要遍历根元素，即“Root1”。因为每次运行应用程序时根元素名称都会发生变化，比如“Root2”、“Root3”。下面是我尝试使用“Root1”和“Result”元素提取ID的代码

使用JSoup for Java从网页中提取特定行

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档