当前位置: 首页 > 知识库问答 >
问题:

Java中的网络爬虫。下载网页问题

卫阳曜
2023-03-14

我正在尝试开发一个小的网络爬虫,它下载网页并搜索特定部分的链接。但当我运行这段代码时,“href”标记中的链接会变短。如:

原文链接:“/kids-toys-action-figures-accessories/b/ref=toys_hp_catblock_actnfig?ie=utf8&node=165993011&pf_rd_m=atvpdkikx0der&pf_rd_s=merchandised-search-4&pf_rd_r=2676466f4bb25430bad0d&pf_rd_t=101&pf_rd_p=1582921042&pf_rd_i=165793011”

变成:“/Kids-Toys-Action-Digure-Accessors/B?IE=UTF8&Node=165993011”

谁能帮帮我。下面是我的代码:

package test;
import java.io.*;
import java.net.MalformedURLException;
import java.util.*;
public class myFirstWebCrawler {

public static void main(String[] args)  {

    String strTemp = "";
    String dir="d:/files/";
    String filename="hello.txt";
    String fullname=dir+filename;

    try {
        URL my_url = new URL("http://www.amazon.com/s/ref=lp_165993011_ex_n_1?rh=n%3A165793011&bbn=165793011&ie=UTF8&qid=1376550433");
        BufferedReader br = new BufferedReader(new InputStreamReader(my_url.openStream(),"utf-8"));
        createdir(dir);
        while(null != (strTemp = br.readLine())){
            writetofile(fullname,strTemp);
        System.out.println(strTemp);

      }
        System.out.println("index of feature category : "  +  readfromfile(fullname,"Featured Categories"));
    } catch (Exception ex) {
        ex.printStackTrace();
    }

}


public static void createdir(String dirname)
{ File d= new File(dirname);

  d.mkdirs();


}

public static void writetofile(String path, String bbyte)
{
    try
    {
        FileWriter filewriter = new FileWriter(path,true);
        BufferedWriter bufferedWriter = new BufferedWriter(filewriter);
        bufferedWriter.write(bbyte);
        bufferedWriter.newLine();
        bufferedWriter.close();
    }
    catch(IOException e)
    {System.out.println("Error");}

}

public static int readfromfile(String path, String key)
{
    String dir="d:/files/";
    String filename="hello1.txt";
    String fullname=dir+filename;
    linksAndAt[] linksat=new linksAndAt[10];
    BufferedReader bf = null;
    try {
        bf = new BufferedReader(new FileReader(path));
    } catch (FileNotFoundException e1) {

        e1.printStackTrace();
    }
    String currentLine;
    int index =-1;
    try{
        Runtime.getRuntime().exec("cls");
    while((currentLine = bf.readLine()) != null)
    {
        index=currentLine.indexOf(key);
        if(index>0)
        { 
            writetofile(fullname,currentLine);
            int count=0;
            int lastIndex=0;
            while(lastIndex != -1)
            {
                lastIndex=currentLine.indexOf("href=\"",lastIndex);

                if(lastIndex != -1)
                {
                    lastIndex+="href=\"".length();
                    StringBuilder sb = new StringBuilder();
                while(currentLine.charAt(lastIndex) != '\"')
                    {
                        sb.append(Character.toString(currentLine.charAt(lastIndex)));
                        lastIndex++;

                    }

                    count++;

                    System.out.println(sb);
                }
            }
            System.out.println("\n count : " + count);
            return index;
        }

    }
    }
    catch(FileNotFoundException f)
    {
        f.printStackTrace();
    System.out.println("Error");
    }
    catch(IOException e)
    {try {
        bf.close();
    } catch (IOException e1) {
    e1.printStackTrace();
    }}
    return index;}
}

共有1个答案

高嘉树
2023-03-14

在我看来,这就像是服务器应用程序对来自桌面浏览器和基于Java的爬虫的请求做出不同的响应。这可能是因为您的浏览器在其请求中传递了cookie,而基于Java的爬虫不是cookies(例如会话持久化cookies),也可能是因为您的桌面浏览器传递了与爬虫不同的用户代理头,或者是因为您的桌面浏览器和Java爬虫之间的其他请求头不同。

在编写爬行应用程序时,这是遇到的最大问题之一:很容易忘记不同客户端请求的相同URL不会总是以相同的代码响应。不知道这是不是发生在你身上的事,但这很常见。

 类似资料:
  • 主要内容:认识爬虫,爬虫分类,爬虫应用,爬虫是一把双刃剑,为什么用Python做爬虫,编写爬虫的流程网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 认识爬虫 我们所熟悉的一系列搜索引擎都是大型的网络爬虫,比如百度、搜狗、360浏览器、谷歌搜索等等。每个搜索引擎都拥有自己的爬虫程序,比如 360 浏览器的爬虫称作 360Spider,搜狗的爬虫叫做

  • 案例:爬取百度新闻首页的新闻标题信息 url地址:http://news.baidu.com/ 具体实现步骤: 导入urlib库和re正则 使用urllib.request.Request()创建request请求对象 使用urllib.request.urlopen执行信息爬取,并返回Response对象 使用read()读取信息,使用decode()执行解码 使用re正则解析结果 遍历输出结果

  • 5.1 网络爬虫概述: 网络爬虫(Web Spider)又称网络蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫按照系统结构和实现技术,大致可分为一下集中类型: 通用网络爬虫:就是尽可能大的网络覆盖率,如 搜索引擎(百度、雅虎和谷歌等…)。 聚焦网络爬虫:有目标性,选择性地访问万维网来爬取信息。 增量式网络爬虫:只爬取新产生的或者已经更新的页面信息。特点:耗费

  • 图片来源于网络 1. 爬虫的定义 网络爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。—— 百度百科定义 详细定义参照 慕课网注解: 爬虫其实是一种自动化信息采集程序或脚本,可以方便的帮助大家获得自己想要的特定信息。比如说,像百度,谷歌等搜索引擎

  • 问题内容: 如何过滤来自网络抓取工具等的点击。不是人类的点击。 我使用maxmind.com从IP请求城市。.如果我必须支付所有点击数(包括网络抓取工具,机器人等)的话,这并不便宜。 问题答案: 有两种检测机器人的一般方法,我将它们称为“礼貌/被动”和“激进”。基本上,您必须使您的网站出现心理障碍。 有礼貌 这些是礼貌地告诉抓取工具他们不应该抓取您的网站并限制抓取频率的方法。可以通过robots.