当前位置：首页 > 面试题库 >

Java Web爬网程序库

习狐若

2023-03-14

问题内容：

我想做一个基于Java的网络爬虫进行实验。我听说如果您是第一次使用Java编写Web爬虫，那是必须走的路。但是，我有两个重要问题。

我的程序如何“访问”或“连接”到网页？请简要说明。（我了解从硬件到软件的抽象层的基础，这里我对Java抽象感兴趣）
我应该使用哪些库？我假设我需要一个用于连接到网页的库，一个用于HTTP / HTTPS协议的库和一个用于HTML解析的库。

问题答案：

这是您的程序“访问”或“连接”到网页的方式。

    URL url;
    InputStream is = null;
    DataInputStream dis;
    String line;

    try {
        url = new URL("http://stackoverflow.com/");
        is = url.openStream();  // throws an IOException
        dis = new DataInputStream(new BufferedInputStream(is));

        while ((line = dis.readLine()) != null) {
            System.out.println(line);
        }
    } catch (MalformedURLException mue) {
         mue.printStackTrace();
    } catch (IOException ioe) {
         ioe.printStackTrace();
    } finally {
        try {
            is.close();
        } catch (IOException ioe) {
            // nothing to see here
        }
    }

这将下载html页面的源代码。

对于HTML解析看到这个

还看看jSpider和jsoup

类似资料：

Hibernate NoClassDefFoundErrororg.hibernate.cfg.配置在Javaweb应用程序

我正在开发一个使用Hibernate的简单JSF应用程序。我将所有必需的库导入WEB-INF/lib文件夹，并将它们指向类路径。但是当我尝试编译它时，我遇到了错误：这是我创建SessionFactory并使用它的代码：我在这里使用它：那我做错了什么？我该怎么解决这个问题？
小程序的爬虫能爬动态数据吗?

页面的内容如果是刚加载时从后台动态拉取的,那么像微信小程序这样的爬虫能爬吗? 如果不能爬的话,如果是浏览器,可以使用服务器渲染的技术来做 SEO,那么小程序是怎么做这种搜索优化
java能写爬虫程序吗

本文向大家介绍java能写爬虫程序吗，包括了java能写爬虫程序吗的使用技巧和注意事项，需要的朋友参考一下我们经常会使用网络爬虫去爬取需要的内容，提到爬虫，可能大家伙都会想到python，其实除了python，还有java。java的编程语言简单规范，是很好的爬虫工具。而且java爬虫的语言运行速度比python快，另外，java的多线程是可以利用多核的。 1、java为什么可以应用于网络爬虫？
第一个Python爬虫程序

主要内容：获取网页html信息,常用方法本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。获取网页html信息 1) 获取响应对象向百度（ http://www.baidu.com/）发起请求，获取百度首页的 HTML 信息，代码
从IntelliJ IDEA向Heroku部署JavaWeb应用程序

我有一个在web容器tomcat上运行的java web应用程序。该web应用程序使用hibernate框架连接到DB，我需要将其从IntelliJ 14.0.2部署到heruko。所以我添加了maven框架，这就是pom。xml：当设置maven的编辑配置并运行它时，我得到一条消息：[错误]在当前项目和插件组[org.apache.maven.plugins，org.codehaus.mojo
基python实现多线程网页爬虫

本文向大家介绍基python实现多线程网页爬虫，包括了基python实现多线程网页爬虫的使用技巧和注意事项，需要的朋友参考一下一般来说，使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里，让它来执行. 另一种是直接从Thread继承，创建一个新的class，把线程执行的代码放到这个新的class里。实现多线程网页爬虫，采用了多线程和锁机制，实现了广度优先算法

相关阅读

Python爬虫爬取美剧网站的实现代码 python爬虫爬取网页数据并解析数据 JavaWeb文件上传入门教程如何识别网络爬虫？python爬虫模拟登录人人网过程解析

相关文章

Python爬虫：常用的爬虫技巧总结网站开发教程物联网(IoT)教程 Python Scrapy爬虫框架 JavaScript算法-爬楼梯

相关问答

Rapid Miner不保存爬网结果 Java中的网络爬虫。下载网页问题如何从传统的JavaWeb应用程序（使用web.xml）迁移到SpringBoot？谷歌爬网503服务不可用如何解决段：爬网/段/*错误

相关工具

JavaWeb-Community JavaWeb Ant Pro JavaWeb-Project-Source-Share 3G魔盘WAP网址导航程序 “小镇故事”官网微信小程序

相关文档

Python 原生爬虫教程 Python 爬虫学习系列教程爬虫课件 Go 网络编程 C 程序设计