当前位置：首页 > 面试题库 >

Python-使用Python网页抓取JavaScript页面

海雪松

2023-03-14

问题内容：

我正在尝试开发一个简单的网页抓取工具。我想提取没有HTML代码的文本。我实现了这个目标，但是我发现在某些加载了JavaScript的页面中，我没有获得良好的结果。

例如，如果一些JavaScript代码添加了一些文本，则看不到它，因为当我调用

response = urllib2.urlopen(request)

我得到的原始文本没有添加文本（因为在客户端执行了JavaScript）。

因此，我正在寻找一些解决此问题的想法。

问题答案：

一旦安装了Phantom JS，请确保phantomjs二进制文件在当前路径中可用：

phantomjs --version
# result:
2.1.1

例

举个例子，我用以下HTML代码创建了一个示例页面。

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  <title>Javascript scraping test</title>
</head>
<body>
  <p id='intro-text'>No javascript support</p>
  <script>
     document.getElementById('intro-text').innerHTML = 'Yay! Supports javascript';
  </script> 
</body>
</html>

如果没有javascript，它会说：No javascript support和javascript：Yay! Supports javascript

没有JS支持的报废：

import requests
from bs4 import BeautifulSoup
response = requests.get(my_url)
soup = BeautifulSoup(response.text)
soup.find(id="intro-text")
# Result:
<p id="intro-text">No javascript support</p>

借助JS支持进行报废：

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(my_url)
p_element = driver.find_element_by_id(id_='intro-text')
print(p_element.text)
# result:
'Yay! Supports javascript'

你还可以使用Python库dryscrape抓取javascript驱动的网站。

借助JS支持进行报废：

import dryscrape
from bs4 import BeautifulSoup
session = dryscrape.Session()
session.visit(my_url)
response = session.body()
soup = BeautifulSoup(response)
soup.find(id="intro-text")
# Result:
<p id="intro-text">Yay! Supports javascript</p>

类似资料：

Python-网页抓取

我是python新手，正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen stats。有人想知道为什么吗？下面是我的代码和我得到的错误下面是我得到的错误 df11=pd。读取html（urlwk1）回溯（上次调用）：文件“”，第1行，在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
使用Python进行网页抓取

问题内容：我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取网络内容？使用什么模块？有没有可用的教程？问题答案：结合使用urllib2和出色的BeautifulSoup库：
使用Python抓取多个网页

我想刮从多个网站与类似的网址的，如https://woollahra.ljhooker.com.au/our-team, https://chinatown.ljhooker.com.au/our-team和https://bondibeach.ljhooker.com.au/our-team. 我已经写了一个脚本，第一个网站的工作，但我不知道如何告诉它从其他两个网站刮。我的代码：有没有一种方
使用python和selenium抓取动态网页

问题内容：在网站上，有在标顶部的几个环节，，，和。如果按下以数字标记的链接，它将动态地将一些数据加载到content中。如果被按下，它会用标签页，，，和第4页中的数据显示。我想从按下的所有链接的内容中抓取数据（我不知道有多少，一次只显示3个，然后）请举一个例子。例如，考虑网站www.cnet.com。请指导我下载使用selenium的一系列页面，并自行解析它们以处理漂亮的汤。问题答案：
Python网页抓取/数据提取

在我的硕士论文中，我正在探索通过web自动化从网站中提取数据的可能性。步骤如下：登录网站（https://www.metal.com/Copper/201102250376）输入用户名和密码单击登录将日期更改为2020年1月1日刮取生成的表格数据，然后将其保存到csv文件中用我电脑上的特定名称保存到特定文件夹运行相同的序列，在同一浏览器窗口的新选项卡中下载其他材料的其他历史价格数据
如何使用Python抓取网页tag操作

本文向大家介绍如何使用Python抓取网页tag操作，包括了如何使用Python抓取网页tag操作的使用技巧和注意事项，需要的朋友参考一下这篇文章主要介绍了如何使用Python抓取网页tag操作,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1. 获取操作tag 获取操作tag的接种方式： soup.find_all(name=None, at

相关阅读

javascript使用C＃生成的抓取网页如何通过Python抓取动态网页如何使用不变的网址抓取多个页面-Python python使用自定义user-agent抓取网页的方法 Python urllib、urllib2、httplib抓取网页代码实例

相关文章

Selenium WebDriver滚动网页审查网页元素 Bootstrap 创建一个网页 Bootstrap4 创建一个网页 7.5.1 WebView(网页视图)基本用法

相关问答

Python网页抓取（Beautiful Soup、Selenium和PhantomJS）：只抓取整个页面的一部分使用python刮取动态javascript内容网页使用美丽汤抓取网页如何用Python抓取javascript网站？用Python抓取网页：非类型错误，不能抓取表的数据

相关工具

多线程页面抓取服务器获取网页的所有图片半月笔记网页版 Eclipse搜索引擎网页应用接口解析html网页的数据

相关文档

网页安全配色手册机器学习：使用 Python MIP 移动网页加速器开发文档 Python 取证中文教程 Python 面试题