本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下:
背景介绍
一 tcp简介
1 tcp 实现网络中点对点的传输
2 传输是通过ports和sockets
ports提供了不同类型的传输(例如 http的port是80)
1)sockets可以绑定在特定端口上,并且提供传输功能
2)一个port可以连接多个socket
二 URL简介
URL 是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
综上,我们要抓取网页的内容实质上就是通过url来抓取网页内容。
Java提供了两种方法:
一种是直接从URL读取网页
一种是通过 URLConnection来读取网页
其中的URLConnection是以http为核心的类,提供了很多关于连接http的函数
本文将给出基于URLConnection的实例代码。
在此之前我们先来看下关于url的异常。不了解java异常机制的请参看上一篇博文。
构造URL的异常MalformedURLException产生条件:url的字符串为空或者是不能辨认的协议
建立 URLConnection的异常 IOException产生条件: openConnection失败,注意openConnection时 代码还未连接远程,只是为连接远程做准备
综上所述,最终代码如下:
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection;public class SimpleNetSpider {
public static void main(String[] args) {
try{ URL u = new URL("http://docs.oracle.com/javase/tutorial/networking/urls/"); URLConnection connection = u.openConnection(); HttpURLConnection htCon = (HttpURLConnection) connection; int code = htCon.getResponseCode(); if (code == HttpURLConnection.HTTP_OK) { System.out.println("find the website"); BufferedReader in=new BufferedReader(new InputStreamReader(htCon.getInputStream())); String inputLine; while ((inputLine = in.readLine()) != null) System.out.println(inputLine); in.close(); } else { System.out.println("Can not access the website"); } } catch(MalformedURLException e ) { System.out.println("Wrong URL"); } catch(IOException e) { System.out.println("Can not connect"); } } }
希望本文所述对大家的Java程序设计有所帮助。
本文向大家介绍ASP.NET抓取网页内容的实现方法,包括了ASP.NET抓取网页内容的实现方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了ASP.NET抓取网页内容的实现方法。分享给大家供大家参考。具体实现方法如下: 一、ASP.NET 使用HttpWebRequest抓取网页内容 二、ASP.NET 使用 WebResponse 抓取网页内容 希望本文所述对大家的C#程序设计有所帮助
本文向大家介绍Node.js实现的简易网页抓取功能示例,包括了Node.js实现的简易网页抓取功能示例的使用技巧和注意事项,需要的朋友参考一下 现今,网页抓取已经是一种人所共知的技术了,然而依然存在着诸多复杂性, 简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest,WebSockets,Flash Sockets等各种复杂技术所开发出来的现代化网站。 我们以我们在Hubdoc这个
本文向大家介绍python3实现抓取网页资源的 N 种方法,包括了python3实现抓取网页资源的 N 种方法的使用技巧和注意事项,需要的朋友参考一下 这两天学习了python3实现抓取网页资源的方法,发现了很多种方法,所以,今天添加一点小笔记。 1、最简单 2、使用 Request 3、发送数据 4、发送数据和header 5、http 错误 6、异常处理1 7、异常处理2 8、HTTP 认证
本文向大家介绍Python实现周期性抓取网页内容的方法,包括了Python实现周期性抓取网页内容的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考,具体如下: 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码中是六维论坛的在线人数 论坛在线人数统计代码: 希
本文向大家介绍php实现递归抓取网页类实例,包括了php实现递归抓取网页类实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php实现递归抓取网页类的方法。分享给大家供大家参考。具体如下: 希望本文所述对大家的php程序设计有所帮助。
本文向大家介绍python基于BeautifulSoup实现抓取网页指定内容的方法,包括了python基于BeautifulSoup实现抓取网页指定内容的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的Python程序设计有所帮助。