当前位置：首页 > 面试题库 >

使用Python进行网页抓取

靳金鹏

2023-03-14

问题内容：

我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取网络内容？使用什么模块？有没有可用的教程？

问题答案：

结合使用urllib2和出色的BeautifulSoup库：

import urllib2
from BeautifulSoup import BeautifulSoup
# or if you're using BeautifulSoup4:
# from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://example.com').read())

for row in soup('table', {'class': 'spad'})[0].tbody('tr'):
    tds = row('td')
    print tds[0].string, tds[1].string
    # will print date and sunrise

类似资料：

Python-使用Python网页抓取JavaScript页面

问题内容：我正在尝试开发一个简单的网页抓取工具。我想提取没有代码的文本。我实现了这个目标，但是我发现在某些加载了的页面中，我没有获得良好的结果。例如，如果一些代码添加了一些文本，则看不到它，因为当我调用我得到的原始文本没有添加文本（因为在客户端执行了）。因此，我正在寻找一些解决此问题的想法。问题答案：一旦安装了，请确保二进制文件在当前路径中可用：例举个例子，我用以下HTML代码创建
使用Python抓取多个网页

我想刮从多个网站与类似的网址的，如https://woollahra.ljhooker.com.au/our-team, https://chinatown.ljhooker.com.au/our-team和https://bondibeach.ljhooker.com.au/our-team. 我已经写了一个脚本，第一个网站的工作，但我不知道如何告诉它从其他两个网站刮。我的代码：有没有一种方
Python-网页抓取

我是python新手，正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen stats。有人想知道为什么吗？下面是我的代码和我得到的错误下面是我得到的错误 df11=pd。读取html（urlwk1）回溯（上次调用）：文件“”，第1行，在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
Selenium与BeautifulSoup进行网页抓取

问题内容：我正在使用Python从网站上抓取内容。首先，我用和Python的，但我看到，该网站有一个按钮，通过JavaScript创建的内容，所以我决定使用。假设我可以使用Selenium等方法找到元素并获取其内容，那么当我可以对所有内容都使用Selenium时，有什么理由要使用？在这种特殊情况下，我需要使用Selenium来单击JavaScript按钮，以便更好地使用Selenium进行解
使用python和selenium抓取动态网页

问题内容：在网站上，有在标顶部的几个环节，，，和。如果按下以数字标记的链接，它将动态地将一些数据加载到content中。如果被按下，它会用标签页，，，和第4页中的数据显示。我想从按下的所有链接的内容中抓取数据（我不知道有多少，一次只显示3个，然后）请举一个例子。例如，考虑网站www.cnet.com。请指导我下载使用selenium的一系列页面，并自行解析它们以处理漂亮的汤。问题答案：
用Python进行网页刮取

最近我一直在用Python和靓汤学习网页刮刮乐。然而，当我试图刮下下面的页面时，我遇到了一点麻烦： http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签，但我找不到任何方法来获取数据，尽管我花了很多时间在网上拖网。我试着在网上看了几本指南，但似乎没有一本奏效。我尝试将页面转换为XML和JSON，但仍然找不到数据。我现在有点手足无

使用Python进行网页抓取

相关阅读

相关文章

相关问答

相关工具

相关文档