当前位置: 首页 > 编程笔记 >

java在网页上面抓取邮件地址的方法

彭鹭洋
2023-03-14
本文向大家介绍java在网页上面抓取邮件地址的方法,包括了java在网页上面抓取邮件地址的方法的使用技巧和注意事项,需要的朋友参考一下

本文实例讲述了java在网页上面抓取邮件地址的方法。分享给大家供大家参考。具体实现方法如下:

import java.io.BufferedReader;  

import java.io.InputStreamReader;  

import java.net.URL;  

import java.util.regex.Matcher;  

import java.util.regex.Pattern;  

  

public class h1  

{  

   public static String   getWebCon(String domain)  

   {  

    System.out.println("开始抓取邮件地址..("+domain+")");  

    StringBuffer sb=new StringBuffer();  

    try  

    {  

     java.net.URL url=new java.net.URL(domain);  

     BufferedReader in=new BufferedReader(new InputStreamReader(url.openStream()));  

     String line;  

     while((line=in.readLine())!=null)  

     {  

      parse(line);  

     }  

     in.close();  

    }  

    catch(Exception e)  

    {  

     sb.append(e.toString());  

     System.err.println(e);  

      

    }  

    return sb.toString();  

   }  

   public static void main(String[] args)  

   {  

    String s;  

    s=h1.getWebCon("http://post.baidu.com/f?kz=34942387"); //这是要抓取的网页,自己可以试下.  

    //System.out.println(s);  

   }  

   private static void parse(String line)  

   {  

    Pattern p=Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");//邮箱的正则表达式  

    Matcher m=p.matcher(line);  

    while(m.find())  

    {  

     System.out.println(m.group());  

    }  

   }  

}

希望本文所述对大家的Java程序设计有所帮助。

 类似资料:
  • 问题内容: 所以,我的问题相对简单。我有一只蜘蛛在多个站点上爬行,我需要它按照我在代码中写入的顺序返回数据。它发布在下面。 结果以随机顺序返回,例如,返回29,然后28,然后30。我已经尝试将调度程序的顺序从DFO更改为BFO,以防万一这是问题所在,但这并没有改变。 问题答案: 定义在方法中使用的URL 。下载页面时,将为你的方法调用每个起始URL的响应。但是你无法控制加载时间-第一个起始URL可

  • WooCommerce的顶级页面有商店页、购物车页、结账页、我的账户页和用户协议页,结账页和账户页有次级页面,分别由结账端点和账户端点来指定,也就是endpoints。顶级页面是WordPress里真正的页面,次级页面没有实体页面,只是靠重定向规则动态创造出来的。本文介绍WooCommerce中获取这些页面地址的专用函数。 如何设置WooCommerce顶级页面 一般首次安装时就会提示你设置,如果

  • 本文向大家介绍java简单网页抓取的实现方法,包括了java简单网页抓取的实现方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下: 背景介绍 一 tcp简介   1 tcp 实现网络中点对点的传输   2 传输是通过ports和sockets   ports提供了不同类型的传输(例如 http的port是80)     1

  • 问题内容: 我花了几天的时间来更新我的个人网站。我的个人网站的网址是(我的名字)。(我的姓氏).com,因为我的姓氏很不寻常,因此我很幸运地选择了域名。我的电子邮件地址是(我的名字)@(我的名字).com。所以说真的,要归结为猜测,并不是很难。 无论如何,我想将mailto:链接集成到我的网站中,以便人们可以与我联系。而且,尽管我的电子邮件地址不是很难猜到的,但我还是不希望垃圾邮件机器人从中获取它

  • 我使用的是。 当我尝试并继续到链接的下一页时,我得到以下错误 文件“scrape.py”,第43行,在查找(driver)文件“scrape.py”中,第26行,在查找links.extend中([link.get_attribute('href')for link in driver.find_elements_by_xpath('//h2[@class=“heading”]/a')])文件“/

  • 我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda

  • 问题内容: 我正在尝试抓取此网站:http : //data.eastmoney.com/xg/xg/ 到目前为止,我已经使用selenium执行javascript并抓取了表格。但是,现在我的代码仅使我获得第一页。我想知道是否有一种方法可以访问其他17个页面,因为当我单击下一页时,URL不会更改,因此我不能每次都遍历另一个URL 下面是我到目前为止的代码: 还是我每次单击后都可以使用webdri

  • 本文向大家介绍golang抓取网页并分析页面包含的链接方法,包括了golang抓取网页并分析页面包含的链接方法的使用技巧和注意事项,需要的朋友参考一下 1. 下载非标准的包,"golang.org/x/net/html" 2. 先安装git,使用git命令下载 3. 将net包,放到GOROOT路径下 比如: 我的是:GOROOT = E:\go\ 所以最终目录是:E:\go\src\golang