当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

Crawler

跨平台不写代码的爬虫
授权协议 GPL
开发语言 Java
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 国产
投 递 者 孙弘博
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Crawler 基于 Java 开发的一款跨平台爬虫,可以使用Shell脚本和DOS命令进行任务式处理。

比如CR命令 使用一个Email正则就可以从贴吧中提取所有邮箱

爬取贴吧email

使用Ci命令 爬取所有新闻 java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml

执行结果

使用Crawler抓取腾讯新闻并保存入库:http://my.oschina.net/u/2311702/blog/652856

详细信息:http://git.oschina.net/puguoan/Crawler

可以与Shell DOS命令等配合组成跨平台、分布式、多线程的爬虫

 相关资料
  • 问题内容: 简而言之:在iPhone和Android版本之间共享/重用代码的最有效方法是什么? 我认为最常见的两种情况是: 空白计划新项目,提前知道每个设备上都需要运行大量可重用的逻辑。 现有的iPhone代码库,可将C,C ++和Objective-C移植到Android NDK或其他方式。 当然,在完美的世界中,所有应用程序都只会插入神奇的云中,而所有可重用的逻辑都将出现在Google App

  • 概况 背景 Web本身就是跨平台的,这意味着这中间存在着无限的可能性。 我是一名Web Developer,对于我来能用Web开发的事情就用Web来完成就好了——不需要编译,不需要等它编译完。我想到哪我就可以写到哪,我改到哪我就可以发生哪发生了变化。 最近我在写Growth——一个帮助开发人员成长的应用,在近一个月的业余时间里,完成了这个应用的: 移动应用版:Android、Windows Pho

  • 多平台支持 Mpx支持在多个小程序平台中进行增强,目前支持的小程序平台包括微信,支付宝,百度,qq和头条,不过自2.0版本后,Mpx支持了以微信增强语法为base的跨平台输出,实现了一套业务源码在多端输出运行的能力,大大提升了多小程序平台业务的开发效率,详情可以查看template增强特性 不同平台上的模板增强指令按照平台的指令风格进行设计,文档和代码示例为了方便统一采用微信小程序下的书写方式。

  • 问题内容: py2exe很棒,每当我想打包一个要在Windows系统上运行的python程序时,我都会使用py2exe。 我的问题是,是否可以使用等效工具在Windows上打包程序,但是可以在Linux上运行? 问题答案: 好的,我已经做到了。这有点hacky,但是对于我的用例来说效果很好。 要点是使用ModuleFinder查找所有导入的模块,过滤掉所有系统模块,编译并压缩它们。 不幸的是,我的

  • ASP 应用程序可在运行 Windows NT 4.0 或 Windows 95 及其更新版本的操作系统的计算机上运行。另外,可在 Macintosh 上运行 streamline 版本的 ASP。因为在 Windows 95 和 Macintosh 上的 Personal Web Server 是为个人发布设计的,所以在对 ASP 应用的支持方面有些不同。您可以在 Windows NT Work

  • 问题内容: 我正在寻找Windows,Linux,MacOS X的跨平台脚​​本(语言)。我对.bat / bash感到厌倦。 我想在自动登录时执行例如``锁定工作站’‘之类的操作(我在X-Window中有此功能,但是解决方案非常丑陋;现在,我希望在MS Windows上实现,而不是丑陋的:-)) 。 通常:自动执行任务。 还是使用Windows Scripting Host会更好? PowerS

  • 我需要在我的应用程序中为不同的标签指定不同的FontFamily。我需要使用默认字体(如Android的Roboto和iOS的Helvetica)及其修改(如轻、中、粗)。据我所知,我应该使用Roboto-Light和Helvetica-Light来获得字体的轻版本(中号和粗体相同)。除了这个需求之外,我还需要在XAML中设置字体(如文档中所描述的),所以我最终得到了以下代码 然而,在Androi

  • 作为第三代数据统计和分析平台,诸葛实现了对用户的实名(实账号)分析,并主张互联网产品分析以用户为中心的分析思想并提供了一系列方法论。对用户的唯一标识来源于企业自身数据库对用户的唯一识别符,也即诸葛底层数据采集是以用户为中心的采集,我们提供了跨平台分析版本, 满足企业以用户为中心的整体的分析需求,不同平台相同业务价值下的用户完整的故事解读(例如:分析电商的用户在PC端浏览产品,在移动端支付的转化率)