我使用Crawljax抓取了动态网页。我可以获取当前的ID,状态和DOM。但我无法获得网站内容。任何人都可以帮助我吗?
CrawljaxConfigurationBuilder builder =
CrawljaxConfiguration.builderFor("http://demo.crawljax.com/");
builder.addPlugin(new OnNewStatePlugin() {
@Override
public String toString() {
return "Our example plugin";
}
@Override
public void onNewState(CrawlerContext cc, StateVertex sv) {
LOG.info("Found a new dom! Here it is:\n{}", cc.getBrowser().getStrippedDom());
String name = cc.getCurrentState().getName();
String url = cc.getBrowser().getCurrentUrl();
System.out.println(cc.getCurrentState().getDom());
System.out.println("New State: " + name + "; url: " + url);
}
});
CrawljaxRunner crawljax = new CrawljaxRunner(builder.build());
crawljax.call();
如何获取动态/ Java脚本网页内容。
我们可以获取网站源代码cc.getBrowser()。getStrippedDom());
或cc.getCurrentState()。getDocument();或 此编码是返回源代码(css / java脚本文件)。
不可能。因为它是测试工具。此工具仅选中“文本”可用,然后将临时数据分配给“字段”。
问题内容: 我在php(string)中有一个div,我想获取内容。 例如: 而且我要 样式在变化,我只知道div ID。 更新 这是我的代码,与turbod源相同,结果也相同。 所以这是原始的html 在此代码之后,我得到以下信息:链接 问题答案: 使用php DomDocument类。http://www.php.net/manual/zh/class.domdocument.php
我面临的问题很简单。如果我试图从一个网站获取一些数据,有两个同名的类。但是它们都包含一个具有不同信息的表。我所拥有的代码只向我输出第一个类的内容。它看起来像这样: 如何让代码输出两个表的内容或仅输出第二个表的内容?提前感谢您的回答!
本文向大家介绍如何在JavaScript中获取iframe的内容?,包括了如何在JavaScript中获取iframe的内容?的使用技巧和注意事项,需要的朋友参考一下 要获取body的内容,可以获取 src 属性或尝试以下代码片段-
问题内容: 我正在抓取一个可能包含很多的网站,例如: 我想像一样填充,并像在爬网期间那样从URL中提取项目。 我可以用来实现此功能吗?以及如何在抓取过程中动态生成? 问题答案: 动态生成URL的最佳方法是重写Spider 的方法:
我有以下REST控制器: 以下存储库: 以及服务: 服务器按预期工作,但客户端有问题。我不知道如何从回复中获取内容。 在客户端我有一个这样的方法: 但是我有以下例外: 现在我阅读了这个stackoverflow条目并添加了CustomPageImpl类:如何使用页面 我将客户端中的方法更改为以下内容: 但现在我得到了几乎相同的例外:
假设我有这个外部json: 使用以下代码创建: 我怎样才能得到这个json内容来解析它呢? 这就是我所尝试的: 谢谢