当前位置: 首页 > 软件库 > Web应用开发 > HTML解析器 >

mechanize

Python的HTML解析
授权协议 BSD
开发语言 Python
所属分类 Web应用开发、 HTML解析器
软件类型 开源软件
地区 不详
投 递 者 谢同化
操作系统 Linux
开源组织
适用人群 未知
 软件概览

当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize

示例代码:

import re
from mechanize import Browser

br = Browser()
br.open("http://www.example.com/")
# follow second link with element text matching regular expression
response1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1)
assert br.viewing_html()
print br.title()
print response1.geturl()
print response1.info() # headers
print response1.read() # body
response1.close() # (shown for clarity; in fact Browser does this for you)

br.select_form(name="order")
# Browser passes through unknown attributes (including methods)
# to the selected HTMLForm (from ClientForm).
br["cheeses"] = ["mozzarella", "caerphilly"] # (the method here is __setitem__)
response2 = br.submit() # submit current form

# print currently selected form (don't call .submit() on this, use br.submit())
print br.form
  • Mechanize使用手册(翻译)。 http://blog.codingmylife.com/?p=51   1,715 views, Ruby , by Allen Dang. 开始使用 [WWW::Mechanize](http://mechanize.rubyforge.org/mechanize/classes/WWW/Mechanize.html) ————————— 本教程的目的是帮

  • 【前言】 网站的404监控,其实要用到的就urllib2和re这两个模块,urllib2用来处理请求,re正则表达式用来处理html页面。 其中,处理html页面(找出页面的全部links),也可使用BeautifulSoup,简单方便。 这里,将介绍如何使用mechanize模块实现网站的404监控。主要内容包括: 1、实现过程中常见的问题答疑; 2、多线程中的线程安全问题; mechanize

  • 需求分析 最近,各平台更新的ip属地功能非常火爆,因此呢,也出现了许多新的网络用语,比如说“xx加几分”,“xx扣大分”等等,非常的有趣啊 可是呢,最近一个小伙伴和我说,“仙草哥哥,我也想查看一下自己的ip地址,可是我不会啊,我应该怎么样才能查看到自己的ip地址呢?” 关于如何查看自己的ip地址,这个我记得我在很早之前已经写过了,有兴趣的话可以查看一下我的这篇文章,当然这次呢,我会换一个复古的方式

  • mechanize是非常合适的模拟浏览器的模块。 它的特点主要有: 1 http,https协议等。 2 简单的HTML表单填写。 3 浏览器历史记录和重载。 4 Referer的HTTP头的正确添加(可选)。 5 自动遵守robots.txt的。 6 自动处理HTTP-EQUIV和刷新。 所以你可以用mechanize来完成一些自动化浏览器想要做的事情,比如自动登录表单,自动填写表单等。 首先你

  • 遇到了一些坑,这个mechanize不支持js代码,如果遇到了 <button id="submit" type="button" οnclick="sign(this,'signin')" class="btn btn-banner mt10">提 交</button> 这样的js代码怎么都通不过...要是有人知道怎么弄欢迎告诉我. 起因是要褥packethub上的羊毛,然后查了一下脚本,发现了

  • 1:简单的使用 import mechanize # response = mechanize.urlopen("http://www.hao123.com/") request = mechanize.Request("http://www.hao123.com/") response = mechanize.urlopen(request) print response.geturl() pr

  • 需求分析 最近,各平台更新的ip属地功能非常火爆,因此呢,也出现了许多新的网络用语,比如说“xx加几分”,“xx扣大分”等等,非常的有趣啊 可是呢,最近一个小伙伴和我说,“仙草哥哥,我也想查看一下自己的ip地址,可是我不会啊,我应该怎么样才能查看到自己的ip地址呢?” 关于如何查看自己的ip地址,有兴趣的话可以查看一下我的这篇文章,当然这次呢,我会换一个复古的方式,使用mechanize进行爬取

  • Python有许许多多有趣的模块,每当自己需要解决某个问题的时候,Python总能冒出来一两个让你惊喜的小玩意。比如说用于数值计算的Numpy(强大而方便的矩阵能力),用于数据分析的Pandas(和R语言有非常多相似的功能,在读写各种文件以及数据处理上会让人有种把excel、R、机器学习融合起来使用的感觉),用于爬虫内容提取的BeautifulSoup(点对点的精准数据获取,使用非常方便),以及最

  • 放假回来了,很久没更新博客了,以后得常更新,今天给大家分享下python第3方的模块包:mechanize。 mechanize是非常合适的模拟浏览器的模块,它的特点主要有: 1 http,https协议等。 2 简单的HTML表单填写。 3 浏览器历史记录和重载。 4 Referer的HTTP头的正确添加(可选)。 5 自动遵守robots.txt的。 6 自动处理HTTP-EQUIV和刷新。

  • 因为工作需要,需要自己做压力测试,然后就寻找免费的测试框架,然后说python不错,然后就找到了这个基于python的测试框架multi_mechanize。 然后在网上搜了下关于这个multi_mechanize的东西,发现资料比较少,然后就找到这玩意的官网,搜集点资料,在自己机器上也试安装了下。发现还是蛮酷的。 下面介绍下安装过程,当然这是基于linux的,我是用cygwin安装的 先安装py

  • 这篇文章主要介绍了Python使用Mechanize模块编写爬虫的要点解析,作者还讲解了Mechanize程序占用内存过高问题的相关解决方法,需要的朋友可以参考下 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。 下面主要总结了使用mechaniz

  • 除了上述步骤外,如果需要,还必须使用凭据进行身份验证,才能使用http代理。否则,mechanize知道使用代理,但不知道如何进行身份验证。 有关详细信息,请参见:mechanizeDocbr = mechanize.Browser() # Explicitly configure proxies (Browser will attempt to set good defaults). # Not

  • 与网页交互(Interacting With a Web Page)  通过Mechanize模拟自然的浏览器行为来完成与网页之间的交互.  # Mechanize的安装  Mechanize的安装请查看 ->  Ruby library的安装  # 使用Mechanize时,需要在脚本头部注明  require 'mechanize'  # Mechanize object的设定  agent

  • 简介 Multi-Mechanize 是一个开源的性能和负载测试框架,它并发运行多个 Python 脚本对网站或者服务生成负载(组合事务)。测试输出报告保存为HTML或JMeter的兼容的XML。Multi-Mechanize最常用于web性能和可扩展性(scalability)测试,也适用于任何python可以访问的API。尤其适合后台性能测试。稍微懂点编程的话,这个工具会远强过商业的性能测试工

  • 简介: Mechanize 是一个 Python 模块,用于模拟浏览器。由于考虑到爬虫所需要的是数据,所以该模块完全可以绕过验证码,直接使用 Cookie 登录就可以了。但是 Mechanize 模块使用 Cookie 登录,Cookie 的生存期较短,而且该模块也不支持 JavaScript。总体来说,该模块在面对验证码问题,算是个非常好的办法,应推荐使用。 该模块的具体用法如下 使用方法一 i

 相关资料
  • 本文向大家介绍使用PHP的HTML DOMDocument解析HTML,包括了使用PHP的HTML DOMDocument解析HTML的使用技巧和注意事项,需要的朋友参考一下 可以通过以下代码获取<div>标记内的<div>标记内的文本,其中<div>内的class =“ main”内- 示例 输出结果 这将产生以下输出-

  • HTML5 Boilerplate 默认提供两个 html 页面: index.html 404.html index.html no-js类 no-js 类可以让开发者依据 JavaScript 被启用(.js)或被禁止(.no-js)两种状态,更轻易准确地添加自定义样式。 使用这个技巧也有助于避免浏览器闪烁(FOUC)。 lang 属性 请认真考虑在 <html> 中添加 lang 属性,从而

  • 问题内容: 我正在开发一个从网站上抓取数据的应用程序,我想知道应该如何获取数据。具体来说,我需要包含在使用特定CSS类的许多div标签中的数据-目前(出于测试目的)我只是在检查 在HTML的每一行中-都可以,但是我不禁感到有更好的解决方案。 有什么好方法可以给类添加一行HTML并提供一些好方法,例如: 问题答案: “ JTidy是HTML Tidy的Java端口,HTML Tidy是HTML语法检

  • 问题内容: 在nodejs上有像Ruby的nokogiri这样的东西吗?我的意思是用户友好的HTML解析器。 我在Node.js模块页面上看到了一些解析器,但是找不到漂亮又新鲜的东西。 问题答案: 如果要构建DOM,可以使用jsdom。 还有cheerio,它具有jQuery接口,并且比旧版本的jsdom快很多,尽管如今它们的性能相似。 您可能想看一下htmlparser2,它是一个流解析器,根据

  • 问题内容: 什么HTML解析器具有以下功能: 快速 线程安全 可靠且无错误 解析HTML和XML 处理错误的HTML 有一个DOM实现 支持HTML4,JavaScript和CSS标签 相对简单的面向对象的API 您认为哪种解析器更好? 谢谢。 问题答案: ApacheTika是最佳选择。Apache最近从现有项目中提取了许多子项目并将其公开。提卡(Tika)是其中之一,以前是Apache Luc

  • 问题内容: 我在Goji框架上运行了一些东西: 我希望有人能帮助我做的是弄清楚如何提交HTML表单以将数据发送到Golang代码。 因此,如果存在一个带有name属性的输入字段,并且该属性的值是name,并且用户在其中输入名称并提交,那么在提交的表单页面上,Golang代码将打印问候,名称。 这是我能想到的: 这是我的hello.html文件: 在身体里: 如何连接到使Golang代码获取的是在表

  • 问题内容: 我试图显示基于JSON数据的“排行榜”表。 我已经阅读了很多有关JSON格式的文章,并克服了一些最初的障碍,但是我的Javascript知识非常有限,需要帮助! 基本上,我的JSON数据是通过如下形式获得的: 我需要的是能够遍历此数组,为每个对象生成一个表行或列表项。数组中的对象总数未知,但是每个对象具有相同的格式-三个值:名称,得分,团队。 到目前为止,我已经使用了以下代码,该代码确

  • 用于解析html网页数据。 作者说:ZHParseHtmlData这个类是我自己写的,解析html的。发现之前用过的TFHpple还有许多都有问题,有的GB2312或者其他编码会乱码或者是不规范的Xml或者不规范的html都解析不出来。现在用我这个类让浏览器对之前页面优化再解析就可以了,只要解析的类是GDataXMLNode,谷歌的东西。也可以用JS解析,但是那样太麻烦,为何不拿着谷歌现有的用呢。