当前位置: 首页 > 面试题库 >

BeautifulSoup和lxml.html-首选什么?

伊光赫
2023-03-14
问题内容

我正在从事一个涉及解析HTML的项目。

搜索后,我发现了两个可能的选项:BeautifulSoup和lxml.html

有什么理由比另一个更喜欢吗?一段时间以前,我已经将lxml用于XML,但我觉得我会更满意,但是BeautifulSoup似乎很常见。

我知道我应该使用对我有用的产品,但是我一直在寻找两者的亲身经历。


问题答案:

简单的答案imo是,如果您相信源代码格式正确,请使用lxml解决方案。否则,BeautifulSoup一直。

编辑:

这个答案现在已经三岁了;值得注意的是,就像乔纳森·瓦纳斯科(Jonathan
Vanasco)在评论中所做的那样,BeautifulSoup4现在支持将其lxml用作内部解析器,因此,如果您愿意,您可以使用BeautifulSoup的高级功能和界面,而不会影响大多数性能(尽管我仍然可以直面lxml自己-
也许只是习惯的力量:))。



 类似资料:
  • 问题内容: Mac拥有TextMate作为红宝石开发的首选应用程序,但是linux的首选应用程序是什么?我需要一些可以轻松处理多个文件,项目结构和设置命令的应用程序来运行我的ruby应用程序,或者如果它是我的merb应用程序之一。语法高亮也是必须的。 现在,我通常使用Vim,但这并不是处理多个文件或项目结构的最佳方法,即使使用VTreeView插件或多个VIM窗口也是如此。 那么你们会建议什么?

  • 问题内容: 更新数据库时我更喜欢什么?哪种方法的优缺点是什么,什么时候应该使用另一种方法? 问题答案: 在第一个示例中,对数据的更改在遇到刷新后会反映在数据库中,但仍在事务中。 但是在第二个示例中,您将立即提交事务。因此,对数据库所做的更改以及事务也在那里结束。 有时,刷新可能有助于将数据保留在正在进行的事务之间,然后最终提交更改。因此,如果以后发生某些问题,例如批量插入/更新,您也可以回滚以前的

  • 问题内容: 我想选择所有具有A和B均为类属性的div。 以下选择 但是选择所有在类属性中具有A或B的div。类可以按任何顺序具有许多其他属性(C,D等),但是我只想选择同时具有A和B的那些属性。 问题答案: 改为使用:

  • 我读了很多MongoDB文档,但我不理解readConcern和readPreference选项之间的区别。 例如:如果我在我的阅读关注选项中设置“多数”,并将“主要”设置为我的阅读偏好选项,结果会是什么?这两种选择似乎是矛盾的。 我知道在查询级别我只能设置readConcern首选项,但在客户端级别我也可以设置readPreference。

  • 7.1.首选项 首选项即用户所做的个人设置。它包含一些选项数据,以及一个修改这些选项数据的用户界面。 在用户看来,首选项就是一些文本框、复选框、下拉菜单等等组成的集合体;而在程序员看来,首选项是一组键值对构成的数据集,其中的值可以是整型、布尔型、字符串等等。 我们的微博应用需要连接到服务端,因此用户的用户名与密码自是必须,除此还需要知道服务端的URL(又称API root)。可知我们在这里需要提供

  • 了解 Lightroom 中可以设置使用的首选项的更多信息。 调整 Lightroom 中的首选项 要打开首选项对话框,请选择编辑 > 首选项 (Win) 或 Lightroom > 首选项 (macOS)。 在首选项对话框中,从左侧菜单选取任意首选项设置:帐户、本地存储空间、常规或界面。 设置所需的首选项,然后单击完成。 此时系统将提示您重新启动 Lightroom 以应用所更改的设置。执行以下