当前位置: 首页 > 编程笔记 >

python 获取网页编码方式实现代码

慎风畔
2023-03-14
本文向大家介绍python 获取网页编码方式实现代码,包括了python 获取网页编码方式实现代码的使用技巧和注意事项,需要的朋友参考一下

python 获取网页编码方式实现代码

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">
  </span><span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">
python开发,自动化获取网页编码方式用到了chardet库,字符集检测,这个类在python2.7中没有,需要在官网上下载。
这里我下载好了chardet-2.3.0.tar.gz压缩包文件,只需要将压缩包文件解压后的chardet文件放到python安装包下的
python27/lib/site-packages/下,就可以了。</span> 

 然后import chardet

下面写了一个自动化检测的函数供检测Url连接,然后返回网页url的编码方式。

import chardet #字符集检测 
import urllib 
 
url="http://www.jd.com" 
 
 
def automatic_detect(url): 
  content=urllib.urlopen(url).read() 
  result=chardet.detect(content) 
 
  encoding=result['encoding'] 
 
  return encoding 
 
urls=['http://www.baidu.com','http://www.163.com','http://dangdang.com'] 
for url in urls: 
  print url,automatic_detect(url) 

上面用到了chardet类的detect方法,返回字典,然后取出编码方式encoding

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

 类似资料:
  • <?php $http = HttpRequest::newSession(); $response = $http->get('http://www.baidu.com/'); $content = $response->body(); // 网页源码

  • 本文向大家介绍C#获取网页源代码的方法,包括了C#获取网页源代码的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了C#获取网页源代码的方法。分享给大家供大家参考。具体如下: 希望本文所述对大家的C#程序设计有所帮助。

  • 本文向大家介绍Python get获取页面cookie代码实例,包括了Python get获取页面cookie代码实例的使用技巧和注意事项,需要的朋友参考一下 在Python中通过GET来获取页面的COOKIE是非常简单的事情,下面的代码实例演示了如何利用Python 获取COOKIE内容 代码很简单,只需要简单的几个命令即可获取

  • 本文向大家介绍Python urllib、urllib2、httplib抓取网页代码实例,包括了Python urllib、urllib2、httplib抓取网页代码实例的使用技巧和注意事项,需要的朋友参考一下 使用urllib2,太强大了 试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上

  • 本文向大家介绍python轻松实现代码编码格式转换,包括了python轻松实现代码编码格式转换的使用技巧和注意事项,需要的朋友参考一下   最近刚换工作不久,没太多的时间去整理工作中的东西,大部分时间都在用来熟悉新公司的业务,熟悉他们的代码框架了,最主要的是还有很多新东西要学,我之前主要是做php后台开发的,来这边之后还要把我半路出家的前端学好、还要学习C++,哈哈,总之很充实了,每天下班回家都可

  • 本文向大家介绍Python获取当前路径实现代码,包括了Python获取当前路径实现代码的使用技巧和注意事项,需要的朋友参考一下  Python获取当前路径实现代码 import os,sys 使用sys.path[0]、sys.argv[0]、os.getcwd()、os.path.abspath(__file__)、os.path.realpath(__file__) sys.path是Pyth