本文实例讲述了java在网页上面抓取邮件地址的方法。分享给大家供大家参考。具体实现方法如下:
import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; public class h1 { public static String getWebCon(String domain) { System.out.println("开始抓取邮件地址..("+domain+")"); StringBuffer sb=new StringBuffer(); try { java.net.URL url=new java.net.URL(domain); BufferedReader in=new BufferedReader(new InputStreamReader(url.openStream())); String line; while((line=in.readLine())!=null) { parse(line); } in.close(); } catch(Exception e) { sb.append(e.toString()); System.err.println(e); } return sb.toString(); } public static void main(String[] args) { String s; s=h1.getWebCon("http://post.baidu.com/f?kz=34942387"); //这是要抓取的网页,自己可以试下. //System.out.println(s); } private static void parse(String line) { Pattern p=Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");//邮箱的正则表达式 Matcher m=p.matcher(line); while(m.find()) { System.out.println(m.group()); } } }
希望本文所述对大家的Java程序设计有所帮助。
问题内容: 所以,我的问题相对简单。我有一只蜘蛛在多个站点上爬行,我需要它按照我在代码中写入的顺序返回数据。它发布在下面。 结果以随机顺序返回,例如,返回29,然后28,然后30。我已经尝试将调度程序的顺序从DFO更改为BFO,以防万一这是问题所在,但这并没有改变。 问题答案: 定义在方法中使用的URL 。下载页面时,将为你的方法调用每个起始URL的响应。但是你无法控制加载时间-第一个起始URL可
WooCommerce的顶级页面有商店页、购物车页、结账页、我的账户页和用户协议页,结账页和账户页有次级页面,分别由结账端点和账户端点来指定,也就是endpoints。顶级页面是WordPress里真正的页面,次级页面没有实体页面,只是靠重定向规则动态创造出来的。本文介绍WooCommerce中获取这些页面地址的专用函数。 如何设置WooCommerce顶级页面 一般首次安装时就会提示你设置,如果
本文向大家介绍java简单网页抓取的实现方法,包括了java简单网页抓取的实现方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下: 背景介绍 一 tcp简介 1 tcp 实现网络中点对点的传输 2 传输是通过ports和sockets ports提供了不同类型的传输(例如 http的port是80) 1
问题内容: 我花了几天的时间来更新我的个人网站。我的个人网站的网址是(我的名字)。(我的姓氏).com,因为我的姓氏很不寻常,因此我很幸运地选择了域名。我的电子邮件地址是(我的名字)@(我的名字).com。所以说真的,要归结为猜测,并不是很难。 无论如何,我想将mailto:链接集成到我的网站中,以便人们可以与我联系。而且,尽管我的电子邮件地址不是很难猜到的,但我还是不希望垃圾邮件机器人从中获取它
我使用的是。 当我尝试并继续到链接的下一页时,我得到以下错误 文件“scrape.py”,第43行,在查找(driver)文件“scrape.py”中,第26行,在查找links.extend中([link.get_attribute('href')for link in driver.find_elements_by_xpath('//h2[@class=“heading”]/a')])文件“/
我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
问题内容: 我正在尝试抓取此网站:http : //data.eastmoney.com/xg/xg/ 到目前为止,我已经使用selenium执行javascript并抓取了表格。但是,现在我的代码仅使我获得第一页。我想知道是否有一种方法可以访问其他17个页面,因为当我单击下一页时,URL不会更改,因此我不能每次都遍历另一个URL 下面是我到目前为止的代码: 还是我每次单击后都可以使用webdri
本文向大家介绍golang抓取网页并分析页面包含的链接方法,包括了golang抓取网页并分析页面包含的链接方法的使用技巧和注意事项,需要的朋友参考一下 1. 下载非标准的包,"golang.org/x/net/html" 2. 先安装git,使用git命令下载 3. 将net包,放到GOROOT路径下 比如: 我的是:GOROOT = E:\go\ 所以最终目录是:E:\go\src\golang