当前位置：首页 > 面试题库 >

如何在Crawljax中获取抓取内容

曾歌者

2023-03-14

问题内容：

我使用Crawljax抓取了动态网页。我可以获取当前的ID，状态和DOM。但我无法获得网站内容。任何人都可以帮助我吗？

CrawljaxConfigurationBuilder builder =
            CrawljaxConfiguration.builderFor("http://demo.crawljax.com/");
    builder.addPlugin(new OnNewStatePlugin() {



        @Override
        public String toString() {
            return "Our example plugin";
        }

                @Override
                public void onNewState(CrawlerContext cc, StateVertex sv) {

                    LOG.info("Found a new dom! Here it is:\n{}", cc.getBrowser().getStrippedDom());
                       String name = cc.getCurrentState().getName();
String url = cc.getBrowser().getCurrentUrl();
System.out.println(cc.getCurrentState().getDom());
System.out.println("New State: " + name + "; url: " + url);
                }
    });
    CrawljaxRunner crawljax = new CrawljaxRunner(builder.build());
    crawljax.call();

如何获取动态/ Java脚本网页内容。

问题答案：

我们可以获取网站源代码cc.getBrowser（）。getStrippedDom（））;
或cc.getCurrentState（）。getDocument（）;或此编码是返回源代码（css / java脚本文件）。

不可能。因为它是测试工具。此工具仅选中“文本”可用，然后将临时数据分配给“字段”。

类似资料：

如何在php中获取div内容

问题内容：我在php（string）中有一个div，我想获取内容。例如：而且我要样式在变化，我只知道div ID。更新这是我的代码，与turbod源相同，结果也相同。所以这是原始的html 在此代码之后，我得到以下信息：链接问题答案：使用php DomDocument类。http://www.php.net/manual/zh/class.domdocument.php
抓取网站时获取多个类的内容

我面临的问题很简单。如果我试图从一个网站获取一些数据，有两个同名的类。但是它们都包含一个具有不同信息的表。我所拥有的代码只向我输出第一个类的内容。它看起来像这样：如何让代码输出两个表的内容或仅输出第二个表的内容？提前感谢您的回答！
如何在JavaScript中获取iframe的内容？

本文向大家介绍如何在JavaScript中获取iframe的内容？，包括了如何在JavaScript中获取iframe的内容？的使用技巧和注意事项，需要的朋友参考一下要获取body的内容，可以获取 src 属性或尝试以下代码片段-
如何在抓取中动态生成start_urls？

问题内容：我正在抓取一个可能包含很多的网站，例如：我想像一样填充，并像在爬网期间那样从URL中提取项目。我可以用来实现此功能吗？以及如何在抓取过程中动态生成？问题答案：动态生成URL的最佳方法是重写Spider 的方法：
如何在Spring Rest Client中获取页面内容

我有以下REST控制器：以下存储库：以及服务：服务器按预期工作，但客户端有问题。我不知道如何从回复中获取内容。在客户端我有一个这样的方法：但是我有以下例外：现在我阅读了这个stackoverflow条目并添加了CustomPageImpl类：如何使用页面我将客户端中的方法更改为以下内容：但现在我得到了几乎相同的例外：
在纯JS中，如何获取Json内容[复制]

假设我有这个外部json：使用以下代码创建：我怎样才能得到这个json内容来解析它呢？这就是我所尝试的：谢谢

相关阅读

PHP实现抓取HTTPS内容顺序抓取抓取网址如何在Selenium中获取脚本标签的内容如何在webdriver中获取元素的当前内容如何在shell变量中获取网页的内容？

相关文章

[实例]抓取百度贴吧数据 Jsoup 读取URL获取HTML Jsoup 读取文件获取HTML [实例]抓取链家二手房数据 [实例]抓取猫眼电影排行榜

相关问答

如何使用Selenium抓取多个URL的内容？Python 获取API如何在catch中获取响应体？Python-从ReactJS div中抓取列表内容在Jooq中，如何获取LinkedHashMap？如何“抓取”类标记中的内容并仅使用JavaScript显示内容？

相关工具

Crawljax 多线程页面抓取服务器 iOS 图片获取和缩放获取网页的所有图片读取txt并实现翻页效果

相关文档

Python 取证中文教程人工智能会取代人类吗？PHP7 内核剖析 Linux 内核揭密 Swoole 内核开发