当前位置: 首页 > 面试题库 >

如何“扫描”网站(或页面)以获取信息,并将其带入我的程序?

羊浩广
2023-03-14
问题内容

好吧,我几乎想弄清楚如何从网页中提取信息,并将其带入我的程序(使用Java)。

例如,如果我知道我想要的信息的确切页面,为了简单起见,我会从该页面上获取我需要的适当信息?喜欢标题,价格,说明吗?

这个过程甚至被称为什么?我什至不知道要开始对此进行研究。

编辑:好的,我正在为JSoup(由BalusC发布的测试)运行测试,但是我一直收到此错误:

Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)

我有Apache Commons


问题答案:

使用类似Jsoup的HTML解析器。我优先于Java中的其他HTML解析器,因为它像CSS选择器一样支持jQuery。此外,它的代表节点列表类,工具,让您可以在遍历它增强的for循环(所以没有必要的麻烦与冗长而像一般的JavaDOM解析器类)。Elements``Iterable``Node``NodeList

这是一个基本的启动示例(只需将最新的Jsoup JAR文件放入类路径中):

package com.stackoverflow.q2835505;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {

    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        String question = document.select("#question .post-text").text();
        System.out.println("Question: " + question);

        Elements answerers = document.select("#answers .user-details a");
        for (Element answerer : answerers) {
            System.out.println("Answerer: " + answerer.text());
        }
    }

}

您可能已经猜到了,这会打印出您自己的问题以及所有答题者的姓名。



 类似资料:
  • 问题内容: 好吧,我几乎想弄清楚如何从网页中提取信息,并将其带入我的程序(使用Java)。 例如,如果我知道我想要的信息的确切页面,为了简单起见,我会从该页面上获取我需要的适当信息?喜欢标题,价格,说明吗? 这个过程甚至被称为什么?我什至不知道要开始对此进行研究。 编辑:好的,我正在为JSoup(由BalusC发布的测试)运行测试,但是我一直收到此错误: 我有Apache Commons 问题答案

  • cmf_get_site_info() 功能 获取后台管理设置的网站信息,此类信息一般用于前台 参数 无 返回 array 网站信息

  • 我正在VB.NET2008中开发一个包含库存管理模块的项目。 我想添加产品名称和产品价格类似的信息。 所以我需要一个条形码扫描器来获取这种类型的输入(产品名称,价格等) 我使用的是TVS BS-L101平板激光条形码扫描仪。当我扫描,它将只反映条形码序列号到文本框,但我想要获得信息,如名称和价格。 我怎样才能得到这个数据?

  • cmf_get_site_info() 功能 获取后台管理设置的网站信息,此类信息一般用于前台 参数 无 返回 array 网站信息

  • Burp Scanner自动执行扫描网站内容和漏洞的任务。当配置完成之后,Scanner 程序可以抓取Web应用程序以发现其内容和功能,以及审核应用程序发现漏洞。 了解有关Burp Scanner如何工作的更多信息 启动扫描 扫描可以通过多种方式启动: 扫描特定网址 - 输入一个或多个URL来执行扫描,并可审计已经抓取到的内容。你可以在Burp 仪表盘选项卡中单击新建扫描(New Scan)按钮。

  • 本文向大家介绍Go语言扫描目录并获取相关信息的方法,包括了Go语言扫描目录并获取相关信息的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Go语言扫描目录并获取相关信息的方法。分享给大家供大家参考。具体分析如下: 前言:最近看到Go里面有一个func很容易就可以扫描整个目录,并且可以得到相应的目录和文件信息,所以我将其进行了封装,拿到file info的所有信息 这样就可以方便的做其它