当前位置: 首页 > 面试题库 >

是否可以将更强大的HTML解析器连接到Python机械化?

吕学
2023-03-14
问题内容

我正在尝试使用机械化方法在网站上解析和提交表单,但是似乎内置表单解析器无法检测到表单及其元素。我怀疑它在格式不正确的HTML上令人窒息,我想尝试使用更好地设计用于处理不良HTML(例如lxml或BeautifulSoup)的解析器对其进行预解析,然后将经过整理,清理的输出馈送到表单中解析器。我不仅需要机械化的方式来提交表单,而且还需要维护会话(我正在登录会话中使用此表单。)

如果确实有可能,我不确定该怎么做。我不太熟悉HTTP协议的各种细节,如何使各个部分协同工作,等等。是否有指针?


问题答案:

从机械化网站首页上的大例子中读取:

# Sometimes it's useful to process bad headers or bad HTML:
response = br.response()  # this is a copy of response
headers = response.info()  # currently, this is a mimetools.Message
headers["Content-type"] = "text/html; charhtml" target="_blank">set=utf-8"
response.set_data(response.get_data().replace("<!---", "<!--"))
br.set_response(response)

因此,似乎很有可能用另一个解析器预处理响应,该解析器将重新生成格式正确的HTML,然后将其反馈给机械化以进行进一步处理。



 类似资料:
  • 是否可以更改我没有连接到的数据库的架构?更具体地说,我需要更改模式的所有者(但出于问题的考虑,这并不重要)。

  • 我有两个android应用程序(A和B),两者都有独立的项目在Firebase,目前我正在工作的一个功能,这将让我发送消息之间的应用程序A和应用程序B使用FCM。由于两个应用程序在不同的项目,我无法做到这一点,也不可能把两个应用程序在一个单一的项目由于一些其他的原因。 所以我在想,如果我可以在app a中创建一个消息表,然后从app B访问该表,并实现我的消息功能。有可能这样做吗?如果是,你能给我

  • 问题内容: Google并未发现任何相关内容。 我有一堆现有的,可以正常工作的C ++代码,并且我想使用python进行爬网并找出类之间的关系等。 编辑:只是想指出:我认为我不需要或不想解析C ++的每一点;我只需要足够聪明的东西来学习类,函数和成员变量声明,并跳过函数定义。 问题答案: 众所周知,C 很难解析。大多数尝试正确执行此操作的人最终都会拆开编译器。实际上,这就是LLVM启动的部分原因:

  • 问题内容: 有一个简单的套接字服务器监听端口; 我想知道的是,有可能: 如果客户端发送请求,则服务器将直接处理该请求, 如果客户端发送请求,则服务器将客户端套接字更改为SSLSocket吗? 谢谢 问题答案: 是否可以将普通套接字更改为SSLSocket? 是的。在服务器端,以下工作: 默认情况下会将现有的转换为client-mode 。由于握手仅在您开始使用I / O流进行读/写时才开始,因此仍

  • 澄清: 我有一台安装了Docker的macbook 我有一个带有MySQL的docker容器 我想从MacBook上的终端连接到在上述容器上运行的mysql实例 我不想使用命令来实现此操作。相反,我想直接从终端使用客户机(而不通过docker容器隧道进入)。 我没有在本地运行MySQL,所以端口3306应该是打开的,可以随时使用。 我用来启动容器的命令是:

  • 问题内容: 很抱歉不得不问这样的事情,但是python的机械化文档似乎确实很缺乏,我无法弄清楚。.他们仅举一个例子,我可以通过以下链接找到它: 但是我不想使用正则表达式,我只想根据其URL跟随链接,我该怎么做..还有什么“ nr”有时用于跟随链接? 谢谢你的任何信息 问题答案: 接受一个对象或关键字arg(例如)。 列出所有链接。 列出其URL与正则表达式匹配的所有链接。 列出其链接文本与正则表达