对于公司项目,我需要使用PHP和JavaScript(包括jQuery)创建一个Web抓取应用程序,该应用程序将从客户网站的每个页面提取特定数据。抓取应用需要为每个页面获取两种类型的数据:1)确定是否存在具有特定ID的某些HTML元素,以及2)提取特定JavaScript变量的值。每个页面上的JS变量名称都相同,但是值通常不同。
我相信我知道如何获得第一个数据要求:使用PHP file_get_contents()函数获取每个页面的HTML,然后使用JavaScript /
jQuery解析该HTML并搜索具有特定ID的元素。但是,我不确定如何获取第二条数据-
JavaScript变量值。甚至在每个页面的HTML中都找不到JavaScript变量;而是在链接到该页面的外部JavaScript文件中找到它。即使将JavaScript嵌入到页面的HTML中,我也知道file_get_contents()只会提取JavaScript代码(和其他HTML),而不会提取任何变量值。
谁能建议一种很好的方法来获取给定网站的每个页面的此可变值?
编辑:只是为了澄清,在运行JavaScript代码后,我需要JavaScript变量的值。这样的事情有可能吗?
想必这是不可能的,因为它似乎很简单,但如果它是 你 的.js你想检测,为什么不只是有.js文件做一些检测通过刮页面?
使用js在某个地方填充这样的标签(大概通过element.innerHTML):
<span><!--Important js thing has been activated!--></span>.
编辑:或者,如果脚本需要在加载时可检测,则可以使用document.write
在我的硕士论文中,我正在探索通过web自动化从网站中提取数据的可能性。步骤如下: 登录网站(https://www.metal.com/Copper/201102250376) 输入用户名和密码 单击登录 将日期更改为2020年1月1日 刮取生成的表格数据,然后将其保存到csv文件中 用我电脑上的特定名称保存到特定文件夹 运行相同的序列,在同一浏览器窗口的新选项卡中下载其他材料的其他历史价格数据
问题内容: [我想做的事] 刮擦下面的网页以获取二手车数据。 http://www.goo- net.com/php/search/summary.php?price_range=&pref_c=08,09,10,11,12,13,14&easysearch_flg=1 [问题] 刮整个页面。在上面的网址中,仅显示前30个项目。我可以在下面编写的代码中删除这些内容。指向其他页面的链接显示为1 2
我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
问题内容: 我正在尝试开发一个简单的网页抓取工具。我想提取没有代码的文本。我实现了这个目标,但是我发现在某些加载了的页面中,我没有获得良好的结果。 例如,如果一些代码添加了一些文本,则看不到它,因为当我调用 我得到的原始文本没有添加文本(因为在客户端执行了)。 因此,我正在寻找一些解决此问题的想法。 问题答案: 一旦安装了,请确保二进制文件在当前路径中可用: 例 举个例子,我用以下HTML代码创建
本文向大家介绍Go语言通过http抓取网页的方法,包括了Go语言通过http抓取网页的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Go语言通过http抓取网页的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的Go语言程序设计有所帮助。
问题内容: 我的问题是:如何从网抓取数据,但是直到您单击例如“ Danhsáchchậm”,该数据才显示。我已经非常认真地尝试,当您单击“ Danhsáchchậm”时,这是onclick事件,它触发了一些javascript函数js函数之一是从服务器获取数据并将其插入到标签/占位符中,并在这时,您可以使用firefox之类的方法检查数据,是的,数据会在网页上显示给用户/查看者。因此,我们又该如何