当前位置: 首页 > 面试题库 >

从Ruby到Python:Crawlers [关闭]

东郭鹤龄
2023-03-14
问题内容

从目前的情况来看,这个问题不适合我们的问答形式。我们希望答案能得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。

8年前关闭。

过去几天,我已经开始学习python。我想知道用python编写爬虫的等效方法。

所以在红宝石中我使用:

  1. nokogiri 用于抓取html并通过css标签获取内容
  2. Net::HTTPNet::HTTP::Get.new(uri.request_uri).body从URL获取JSON数据

python中的这些等效项是什么?


问题答案:

主要是,您必须将“抓取器”
/抓取器(将从Web服务器下载文件/数据的python库/程序/函数)和将读取此数据并解释数据的解析器分开。就我而言,我必须抓取并获得一些“公开”的政府信息,但这些信息对下载/数据不友好。对于这个项目,我使用了scrapy
[1]。

主要是设置“ starter_urls”,即我的机器人将抓取/获取的URL,并在使用函数“解析器”检索/解析此数据之后。

对于解析/检索,您将需要一些html,lxml提取器,因为90%的数据就是这样。

现在关注您的问题:

用于数据爬网

  1. cra草
  2. 请求[2]
  3. Urllib [3]

用于解析数据

  1. Scrapy / lxml或scrapy + other
  2. lxml [4]
  3. 美丽汤[5]

并且请记住“抓取”,抓取不仅适用于网络,也适用于电子邮件。您可以在此处查看有关此问题的另一个问题[6]

[1] = http://scrapy.org/

[2] -http://docs.python-requests.org/en/latest/

[3]
-http://docs.python.org/library/urllib.html

[4] -http://lxml.de/

[5]
-http://www.crummy.com/software/BeautifulSoup/

[6]
-Python读取我的Outlook电子邮件邮箱并解析消息



 类似资料:
  • 问题内容: 我可以使用一种方法 但是我该如何以user_lib的身份重新找回它? 问题答案: 您想要或: 此处的关键是用作从磁盘加载JSON字符串的一种简单方法,以便可以对其进行解析。或者,如果文件中包含UTF-8数据: 我已经链接到上面的JSON文档,所以您应该阅读它以获取更多详细信息。但总而言之: —在特定对象上创建JSON字符串的方法。 —从对象创建JSON字符串。 —创建一个JSON字符串

  • 一个插件组织。喷气式飞机。插件。ruby与IntelliJ IDEA的当前版本不兼容。IntelliJ IDEA现在将关闭。 没办法,我不能用设置来禁用插件,我什么都做不了。为什么这是插件的行为?我不需要鲁比。

  • 本文向大家介绍Ruby on Rails 从Rails 4.2升级到Rails 5.0,包括了Ruby on Rails 从Rails 4.2升级到Rails 5.0的使用技巧和注意事项,需要的朋友参考一下 示例 注意:升级Rails应用程序之前,请务必确保将代码保存在版本控制系统(例如Git)上。 要从Rails 4.2升级到Rails 5.0,必须使用Ruby 2.2.2或更高版本。如果需要,

  • 问题内容: 我有一个编译的Python库和API文档,我想从Ruby使用。 是否可以加载Python库,实例化其中定义的类并从Ruby对该对象调用方法? 问题答案: 本文提供了一些从Python运行Ruby代码的技术,这些技术也应适用于相反的方向(例如XML- RPC或管道),以及从Ruby运行Python代码的特定技术。特别是rubypython或Ruby / Python 看起来像他们可以做您

  • 我正在将我的项目从Oracle JDK迁移到open JDK。 该项目是maven构建的,所有依赖项都在pom文件中。 我想知道是否有一种方法可以使用我的pom.xml文件,并用等效的开源JAR获得我所有的JAR? 到目前为止,我正在手动查看每个JAR的发行说明,并检查是否有开源许可证。 这里,当我说Oracle licensed时,我的意思是它不是一个开源的JAR。 感谢你的帮助!!!!干杯!!

  • 本文向大家介绍Ruby从github / filesystem安装Gem,包括了Ruby从github / filesystem安装Gem的使用技巧和注意事项,需要的朋友参考一下 示例 您可以从github或文件系统安装gem。如果已经从git中检出了gem或已经在文件系统中检出了gem,则可以使用以下命令进行安装 从github安装gem。从github下载源 建立宝石            

  • 问题内容: 关闭。 此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗? 更新问题,使其成为Stack Overflow 的主题。 3年前关闭。 我已经将数据库从postgresql更改为mysql,但是我不知道如何将数据从一个转移到另一个。 有谁知道任何命令可以将数据库从postgresql复制/迁移到mysql? 问题答案: 几年 前面 对这个问题,并用 pg2mysql 编辑20

  • 问题内容: 是否有在Ruby中将XML转换为JSON的库? 问题答案: 一个简单的把戏: 首先,您需要,然后在使用Rails时可以执行以下操作: 如果您不使用Rails,则可以要求它,并且事情应该顺利进行。 例: