当前位置: 首页 > 知识库问答 >
问题:

无法使用Jsoup从amazon或flipkart页面解析img和名称

桓瀚
2023-03-14

我无法获得主图像和名称的产品在亚马逊或Flipkart使用JSOUP。

我的Java/JSOUP代码是:

// For amazon
Connection connection = Jsoup.connect(url).timeout(5000).maxBodySize(1024*1024*10);
Document doc = connection.get();
Elements imgs = doc.select("img#landingImage");
Elements names = doc.select("span#productTitle");

// For flipkart
Connection connection = Jsoup.connect(url).timeout(5000).maxBodySize(1024*1024*10);
Document doc = connection.get();
Elements imgs = doc.select("h1.title");
Elements names = doc.select("img.productImage.current");

有人能指出我在这里遗漏了什么吗?

有没有办法做同样的事?

共有1个答案

施令秋
2023-03-14

发现了问题所在。

当我们使用java.net.URL使用URL提取服务时,GAE中的Jsoup工作如下:

private String read(String url) throws IOException
{
    URL urlObj = new URL(url);
    BufferedReader reader = new BufferedReader(new InputStreamReader(urlObj .openStream()));
    String line;
    StringBuffer sbuf = new StringBuffer();

    while ((line = reader.readLine()) != null) {
        if (line.trim().length() > 0)
            sbuf.append(line).append("\n");
    }
    reader.close();
    return sbuf.toString();
}

然后使用常规Jsoup作为:

String html = read(url);
Document doc = Jsoup.parse(html);
 类似资料:
  • http://www.argenteam.net/movie/40749/American.Reunion.%282012%29 我正在尝试使用JSOUP获得该页面上的所有类似于这样的链接: 问题是我无法获得这种链接。做了一些极端的事情,我尝试了下面的代码来获得页面上的所有链接,但是这个“a[href]”再次出现在列表中。 最终编辑与解决方案: 该网站请求一个cookie来显示我需要的链接,因为这

  • 我需要提取以下html https://ndb.nal.usda.gov/ndb/search/list中列出的所有食品的ID和mfg.name 我正在使用Jsoup并且对它很陌生。

  • Jsoup库未解析给定URL的完整html。URL的原始html中缺少一些分区。 有趣的事情:http://facebook.com/search.php?init=s:email&q=somebody@gmail.com&type=users 如果您在jsoup的官方站点http://try.jsoup.org/中给出了上面提到的url,它通过提取正确地显示了url的确切html,但是在使用js

  • 我想解析出这个Nasa页面上的描述,页面底部的文字 我该怎么做?

  • 我的android应用程序中的Amazon analytics正在尝试连接到此主机“mobileanalytics.eu-west-1.amazonaws.com”,但无法解决此问题,导致以下错误: I/AmazonHttpClient:无法执行HTTP请求:无法解析主机“mobileanalytics.eu-west-1.amazonaws.com”:没有与主机名10-12 14:05:34.8

  • 问题内容: 这是我必须从中提取值5390.85,5428.15,5376.15和5413.85的HTML源。我想使用jsoup做到这一点。但是我对jsoup比较陌生(今天我开始使用它)。那我该怎么办呢? 我已经使用jsoup提取了网站的内容。但是如何提取我需要的值?提前致谢 问题答案: 尝试这样的事情: 这是打印输出:-