用Java抓取angularjs网站

宗政鸿志

2023-03-14

问题内容：

我需要抓取一个网站，其内容由Angular“插入”。它需要用java完成。

我已经尝试过Selenium
Webdriver（因为我之前曾使用Selenium来抓取较少动态的网页）。但是我不知道如何处理Angular部分。除了页面顶部的script标签之外，网站中只有一个地方具有Angular属性：

<div data-ng-module="vindeenjob"><div data-ng-view=""></div>

我在这里找到了这篇文章，但是说实话…我不知道。看来作者正在选择（这样称呼他们）’ng-attributes’这样的

WebElement theForm = wd.findElement(By.cssSelector("div[ng-controller='UserForm']"));

但无法解释他为什么做自己的工作。在他的演示页面的源代码中，我找不到任何叫做“ UserForm”的东西……所以为什么仍然是个谜。

然后，我尝试为Selenium设置时间间隔，希望可以呈现页面，并最终在等待期过后可以抓取结果，如下所示：

    WebDriver webdriver = new HtmlUnitDriver();
    webdriver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS);
    webdriver.get("https://www.myurltoscrape.com");

但无济于事。然后，还有这篇文章，给出了一些有趣的例外，例如，不能设置属性[HTMLStyleElement]
.media只能使用所有吸气剂。

这基本上意味着javascript可能有问题。但是，HtmlUnit似乎确实意识到页面上有JavaScript，这比我之前获得的更多。我确实意识到（就像我对异常的搜索一样），HtmlUnit中有一个功能，该功能应确保您没有看到javascript异常。我将其关闭，但无论如何我都会遇到异常。这是代码：

webClient.getOptions().setThrowExceptionOnScriptError(false);

我会发布更多代码，但是基本上没有什么能刮擦动态内容，而且我很确定这不是错误的代码，这还不是正确的解决方案。

我可以帮忙吗？

问题答案：

最后，我遵循了Madusudanan的出色建议，并研究了PhantomJS /
Selenium组合。实际上，有一个解决方案！它叫做PhantomJSDriver。

您可以在这里找到Maven依赖项。这是有关幽灵驱动程序的更多信息。

Maven中的设置-我添加了以下内容：

<dependency>
        <groupId>net.sourceforge.htmlunit</groupId>
        <artifactId>htmlunit</artifactId>
        <version>2.41.0</version>
    </dependency>
    <dependency>
        <groupId>com.github.detro</groupId>
        <artifactId>phantomjsdriver</artifactId>
        <version>1.2.0</version>
    </dependency>

它还与Selenium
2.45版一起运行，这是到目前为止的最新版本。我之所以提及这一点，是因为我读过一些文章，其中有人说Phantom驱动程序与Selenium的每个版本都不兼容，但是我想他们同时解决了这个问题。

如果您已经在使用Selenium /
Phantomdriver组合，并且在某个站点上遇到“严格的JavaScript错误”，请更新您的Selenium版本。这将解决它。

这是一些示例代码：

public void testPhantomDriver() throws Exception {
    DesiredCapabilities options = new DesiredCapabilities();
    // the website i am scraping uses ssl, but I dont know what version
    options.setCapability(PhantomJSDriverService.PHANTOMJS_CLI_ARGS, new String[] {
          "--ssl-protocol=any"
      });

    PhantomJSDriver driver = new PhantomJSDriver(options);

    driver.get("https://www.mywebsite");

    List<WebElement> elements = driver.findElementsByClassName("media-title");

    for(WebElement element : elements ){
        System.out.println(element.getText());
    }

    driver.quit();
}

用Java抓取angularjs网站

相关阅读

相关文章

相关问答

相关工具

相关文档