当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

Common Crawl

InputFormat 配送实现
授权协议 未知
开发语言 Java Java
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 不详
投 递 者 范福
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。

Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。

该库提供了支持代码,用于使用S3上存储的Common Crawl Corpus RAW爬行数据(ARC文件)。有关如何访问语料库的更多信息,参见https://commoncrawl.atlassian.net/wiki/display/CRWL/About+the+Data+Set

您可以采取两条主要途径来使用ARC File内容:

(1)您可以在EC2上运行Hadoop集群,也可以使用EMR运行Hadoop作业。在这种情况下,您可以使用ARCFileInputFormat将数据驱动到映射器/缩减器。InputFormat有两种版本:一种是为符合弃用的mapred包而编写的,位于org.commoncrawl.hadoop.io.mapred,另一种是为mapreduce包而编写的,其相应地位于org.commoncrawl.hadoop.io.mapreduce。

(2)您可以通过将InputStream输入到org.commoncrawl.util.shared包中的ARCFileReader类来直接解码数据。

两种路由(InputFormat或ARCFileReader直接路由)都生成一个元组,该元组由UTF-8编码的URL(文本)和原始内容(BytesWritable)(包括HTTP标头)组成,这些内容由搜寻器下载。HTTP标头是UTF-8编码的,标头和内容由一组连续的CRLF令牌定界。内容本身是文本mime类型时,将使用源文本编码进行编码。

  • commoncrawl是一个开放的数据平台,它预先爬取了数年的互联网信息(包括网页、文件等),研究人员可直接通过其维护的数据直接爬取,而不用自行探索爬取的渠道。该网站提供了示例代码列表供参考。该网站主要可用于大数据分析,而对于需要针对特定网站进行爬取的爬虫则没有帮助。 本文记录在使用示例代码CommonCrawlDocumentDownload来下载特定类型文档时踩的坑。 CommonCrawlD

 相关资料
  • 1.配送方式选择了本地配送,但显示不支持本地配送是什么原因? 当选择了本地配送方式后,需要在系统【后台设置->配送设置】,找到本地配送,添加本地配送地区。

  • 配送管理 配送具体配置可参考物流配送

  • 第一步,在系统后台设置->配送设置,找到本地配送,添加本地配送地区。 第二步,设置配送的运费,起送消费金额,起送配送费用。设置配送时间(配送时间可单独设置上午或下午,若起始时间与结束时间均未设置,则默认为该时间段不提供配送服务)、优惠配送金额等。 第三步,添加本地配送人员。 第四步,买家在前台下单时选择本地配送,提交订单后,商家发货,在后台选择配送人员进行配送。

  • 物流相关配置 包括了物流配送基础设置,门店自提,本地配送,地址管理,物流跟踪快递鸟和快递100的配置等相关内容。 快递鸟官网:http://www.kdniao.com 快递100官网:http://www.kuaidi100.com 注意: 商家在添加物流公司的时候必须设置运费模板,否则添加的物流公司无效; 商家运费模板中设置的地区必须包含买家下单填写收货地址; 切记在设置->交易设置->购物设

  • 本文向大家介绍node.js微信小程序配置消息推送的实现,包括了node.js微信小程序配置消息推送的实现的使用技巧和注意事项,需要的朋友参考一下 在开发微信小程序时,有一个消息推送,它的解释是这样的。 消息推送具体的内容是下面的这个网址   https://developers.weixin.qq.com/miniprogram/dev/framework/server-ability/mess

  • 问题内容: 我想使用XMPP,以便我的应用程序将更新发送到Android手机(1.5及更高版本)。我非常想使用XMPP将推送通知发送到电话。 我将如何实现这一目标。目前,我的Web应用程序正在使用许多servlet在apache tomact上运行,因此android手机可以访问信息,但是我发现很难理解如何实现XMPP,以便可以将信息从服务器推送到客户端( android手机)。 我已经通过Goo

  • 本文向大家介绍基于spring实现websocket实时推送实例,包括了基于spring实现websocket实时推送实例的使用技巧和注意事项,需要的朋友参考一下 基于spring框架来写的,websocket实时推送例子,具体内容如下 第一步:自己搭建一个springmvc项目,很简单,网上百度都有;pom文件添加以下: 我的spring版本是4.2.4的,所以websocket也是4.2.4的

  • 我还想为Android设置MDM环境。我该从哪里开始?无论我走到哪里,我都被转到了这一页。此页面中的示例代码链接将重定向到提供android应用程序代码示例的页面。与iPhone不同的是,Android是否需要有一个应用程序来执行MDM?