当前位置：首页 > 编程笔记 >

python实现从web抓取文档的方法

谷梁弘深

2023-03-14

本文向大家介绍python实现从web抓取文档的方法，包括了python实现从web抓取文档的方法的使用技巧和注意事项，需要的朋友参考一下

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法，分享给大家供大家参考。具体方法分析如下：

实例代码如下：

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中，
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

类似资料：

python实现多线程行情抓取工具的方法

本文向大家介绍python实现多线程行情抓取工具的方法，包括了python实现多线程行情抓取工具的方法的使用技巧和注意事项，需要的朋友参考一下思路借助python当中threading模块与Queue模块组合可以方便的实现基于生产者-消费者模型的多线程模型。Jimmy大神的tushare一直是广大python数据分析以及业余量化爱好者喜爱的免费、开源的python财经数据接口包。平时一直有在
Python实现周期性抓取网页内容的方法

本文向大家介绍Python实现周期性抓取网页内容的方法，包括了Python实现周期性抓取网页内容的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考，具体如下： 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页，并解析出想要的网页内容，代码中是六维论坛的在线人数论坛在线人数统计代码：希
用Python实现动态网站的抓取

我尝试用BS4 python来抓取动态网站： https://www.nadlan.gov.il/?search=תל אביב יפו 我试过：我有两个问题： > 当我打开站点时，数据加载需要几秒钟：硒如何解决这些问题？
Python Selenium Web抓取隐藏Div

正如标题所示，我正在尝试使用Selenium从网站（示例）中获取一些数据，但是我在从Pro结果表中获取隐藏在每一行中的数据时遇到了问题，即单击Show Details按钮（）时显示的数据。这是我的代码：正如您所看到的，我可以很容易地获取表中的行，但是当我试图获取隐藏数据时，我就是找不到获取它的方法。我对Selenium也不是很熟悉，所以欢迎提供任何指导。
java简单网页抓取的实现方法

本文向大家介绍java简单网页抓取的实现方法，包括了java简单网页抓取的实现方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下：背景介绍一 tcp简介　　1 tcp 实现网络中点对点的传输　　2 传输是通过ports和sockets 　　ports提供了不同类型的传输（例如 http的port是80）　　　　1
ASP.NET抓取网页内容的实现方法

本文向大家介绍ASP.NET抓取网页内容的实现方法，包括了ASP.NET抓取网页内容的实现方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了ASP.NET抓取网页内容的实现方法。分享给大家供大家参考。具体实现方法如下：一、ASP.NET 使用HttpWebRequest抓取网页内容二、ASP.NET 使用 WebResponse 抓取网页内容希望本文所述对大家的C#程序设计有所帮助

相关阅读

Python读取xlsx文件的实现方法 python基于BeautifulSoup实现抓取网页指定内容的方法 Python实现登录人人网并抓取新鲜事的方法 PHP中的Web抓取 Python实现将DOC文档转换为PDF的方法

相关文章

[实例]抓取动态加载数据 [实例]抓取多级页面数据 [实例]抓取百度贴吧数据 [实例]抓取链家二手房数据 [实例]抓取猫眼电影排行榜

相关问答

Python-网页抓取从twitter上抓取推文[重复]从另一个方法抓取字符串用python和scrapy从web中提取文本使用Python-beautifulsou创建Web抓取表和数据

相关工具

多线程页面抓取服务器 Ext4.1中文API文档瀑布效果，不同的实现方式 Sphinx 文档工具 jQueryAPI参考文档中文版

相关文档

Python 中文官方文档 v2.7 OpenCV-Python 中文官方文档 v4.1.2 Spring Web Services 中文文档百度 Web Uploader 中文文档各种算法的 Python 实现方案