当前位置: 首页 > 面试题库 >

非常基本的例子

施赞
2023-03-14
问题内容

我的Mac上安装了Python Scrapy,我正尝试在其网络上遵循第一个示例。

他们正在尝试运行命令:

scrapy crawl mininova.org -o scraped_data.json -t json

我不太明白这是什么意思?看起来scrapy原来是一个单独的程序。而且我认为他们没有一个称为“抓取”的命令。在示例中,他们有一段代码,这是类MininovaSpider和TorrentItem的定义。我不知道这两个类应该去哪里,去同一个文件,这个python文件的名字是什么?


问题答案:

与“ Scrapy一目了然”网页相反,你可能会更幸运地先阅读本教程。

教程暗示,Scrapy实际上是一个单独的程序。

运行该命令scrapy startproject tutorial将创建一个tutorial已为你设置的名为多个文件的文件夹。

例如,在我的情况下,所述模块/包items,pipelines,settings和spiders已被添加到根包tutorial。

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

TorrentItem班将被放在里面items.py,而MininovaSpider类会去里面spiders的文件夹。

设置项目后,Scrapy的命令行参数似乎非常简单。它们采用以下形式:

scrapy crawl <website-name> -o <output-file> -t <output-type>

另外,如果你希望在没有创建项目目录的开销的情况下运行scrapy,则可以使用runtimepider命令:

scrapy runspider my_spider.py


 类似资料:
  • 我有一个非常简单的代码。,当值正确时将显示输入。但是不起作用,我在pre中没有看到任何东西

  • 我在windows Server2008上运行的是Neo4j版本1.7.2。

  • 我试图在Scala中创建一个非常简单的二叉树,用于数据存储和遍历。 现在我有: 我的问题: > 我怎样才能包含指向家长的指针? 我能以任何方式将左和右指向null吗?还是根节点的父指针? 我怎样才能真正穿越这棵树? 更新节点的值容易吗?

  • 什么是仓库 在 Git 的概念中,仓库,就是你存在.git目录的那个文件夹内的所有文件,包括隐藏的文件,Git程序会再当前目录以及上级目录查找是否存在.git文件,如果存在,则会将.git目录存在的文件夹开始下的所有文件当成你需要管理的文件,所以,我们如果想将某个文件夹当做一个Git仓库,你可以在那个文件夹下通过终端(Window为Cmd或者PoewrShell或者Bash)来执行 git ini

  • 我搜索了数据库和食谱,但似乎找不到正确的答案。我有一个非常简单的python代码,它总结了一个范围内的自我权力。我需要这个非常非常大的数字的最后十位,我已经尝试了get上下文(). prec,但是我仍然达到了极限。 代码如下: 我怎么能看到这些美丽的数字?它在我的四核上打印速度相对较快。这只是为了给ProjectEuler带来乐趣,问题#48,请不要破坏者。我不想要解决方案,也不想让工作为我完成,

  • 本文向大家介绍tensorflow 基本范例,包括了tensorflow 基本范例的使用技巧和注意事项,需要的朋友参考一下 示例 Tensorflow不仅仅是一个深度学习框架。它是一种通用计算框架,用于以并行和分布式方式执行通用数学运算。下面描述这样的示例。 线性回归 常用的并且易于计算的基本统计示例是将一条线拟合到数据集。在tensorflow中执行此操作的方法在下面的代码和注释中进行了描述。