当前位置: 首页 > 软件库 > 企业应用 > BI商业智能 >

Shark

数据仓库系统
授权协议 Apache
开发语言 Scala
所属分类 企业应用、 BI商业智能
软件类型 开源软件
地区 不详
投 递 者 谷森
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Shark 是一个大型的数据仓库系统为 Spark 的设计与 Apache Hive 兼容。它处理 Hive QL 的性能比 Apache Hive 快 30 倍。支持 Hive 查询语言、元存储、序列化格式和用户自定义函数。

要求:

  • Scala 2.10.3

  • AMPLab's Hive 0.11

  • Spark 0.9.x

  • Shark简介 Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境

  • Starting Shark Shark可以通过一个客户端应用来启动,首先要进行配置(支持三种不同的风格),获得Shark实例。下面是一种最普遍的方式: String confFilePath="Shark.conf"; Shark.configure(confFilePath); Shark shark=Shark.getInstance(); 如果你想使用Shark的CORBA接口,首先你要启

  • Shark是一个完全基于WFMC和OMG规范的工作流引擎。 l         它使用WFMC的XPDL语言作为它本身的工作流定义格式。 l         在它的标准核心执行(implementation)中,Shark是一个库,它不产生自己的线程,能在很多环境中使用(web,swing,corba,ejb) l         它是十分结构化的,它所有内部接口,全部内核都可以被外部执行(imp

  • 包装osworkflow,学习一下shark的功能体,down的是shark1.1-2 按照quick start实践了一下,介绍一下它的大致功能 Shark完全基于WfMC和OMG标准,使用 XPDL作为工作流定义语言。流程和活动的存储使用Enhydra DODS(一个开源OR映射工具)。 Shark1.1-2版本使用后大致功能简介如下: Adminstrator Application 1、 

  • 配置了hadoop和hive进行测试,发现测试结果并不理想,听其他公司说使用spark可以提高计算速度。 安装spark比较顺利,按网上查到的安装就可以了。 shark的安装就麻烦多了,因为新出了0.9.0和0.9.1,网上查到的大部分都是0.7的安装方法,直接配置上就行了,0.9下下来一看只有1.5M,放上去报没有找到jar包,无法执行,查了半天,发现得自己编译,本地32位ubuntu,服务器6

  • 本文介绍在计算机集群上如何启动和运行Shark。如果对Amazon EC2上运行Shark感兴趣,请点击这里查看如何使用EC2脚本快速启动预先配置好的集群。 依赖: 注意:Shark是一个即插即用的工具,所以可以在现有的Hive数据仓库之上运行,不需要您对现有的部署做出任何修改。 在集群上运行Shark需要一下几个外部组件: Scala 2.9.3 Spark 0.7.2 兼容的JAVA运行时环境

  • 根据 WfMC 的定义,工作流(Work Flow)就是自动运作的业务过程部分或整体,表现为参与者对文件、信息或任务按照规程采取行动,并令其在参与者之间传递。   简单地说,工作流就是一系列相互衔接、自动进行的业务活动或任务。我们可以将整个业务过程看作是一条河,其中流过的就是工作流。 工作流引擎对工作流进行控制。 Shark1.0完全是根据WFMC规范实施的,可扩展功能的工作流引擎,它利用xpdl

  • Shark完全遵循WFMC和OMG标准: l         使用XPDL作为本地工作流定义标准 l         Shark的内核可以应用于不同的环境:web应用、Swing应用、CORBA服务部署、EJB容器。 l         具有非常好的可配置性,它的内部接口可以替换为其它的实现。 l         可应用于不同的虚拟机 l         它提供了一个CORBA接口,通过它CORB

  • shark这东西用了几天,觉得好没意思. 做了个web登陆,转了几个流程,还把监控做了个applet, 浪费了不少时间,不玩了. 最近项目组又有新的任务, 去某公司搞windchill实施,为期半年. 搞了2周了,收获不少,把以前搞的一些都串了起来. 继续努力.

  • 出自http://gigix.blogdriver.com/gigix/106028.html Shark第一印象- -                                        试了一下Enhydra Shark工作流引擎,暂时还不知道如何编程使用,只有一些肤浅的印象。   庞大——比OSWorkflow和Werkflow都大了许多,概念非常完整,一时间还很难完全理解这些概念

  • Shark介绍及配置 -- Enhydra Shark   2007年3月16日 版本:1.0          本文仅代表个人对Shark的理解,如有理解错误或不准确的地方,敬请大家指出,我将急时修证。迎大家共同交流、相互学习。             目录 Shark是什么?…………………………………………………………… 启动Shark………………………………………………………………………..

  •    Shark  Jbpm  持久层  Shark自己的一个ORM的方案DODS,感觉不是很好 大名鼎鼎的 Hibernate(Jbpm2中使用的是Hibernate 2.1,Jbpm3种使用的是Hibernate3)  灵活性  Shark给人的感觉就是庞大,需要独立的运行一个工作量引擎服务  相对更加灵活,和OSWorkflow有的一比,也可以作为嵌入式的工作流引擎  后台管理  其实这点和

  • 1、关于其API的存放路径问题,为什么不是在一个整体的src目录下,而是分了很多单独的目录 现在看是,为了将这些数量巨大的API分门别类的存放,以指示使用者在何种场合使用哪一部分API,比如api目录中为用户提供可编程的interface,corba中提供corba相关的服务。 2、关于Shark中Adapter模式的频繁使用问题 在Shark的设计思想中,我理解是基于一个Meta-Data Fr

  • 1、先将shark用到的jar文件拷贝到工程的lib中(可能有些文件会冲突,比如我们的工程中有jgraph但是版本比较低,流程图就出不来)。 2、将shark的conf文件放到webroot目录下的conf文件夹中,还有logs文件夹,repository文件夹。 3、要查看流程图,需要配置生成流程图的servlet。 4、要查看流程图,jgraph.jar一定要用shark自带的那个版本。(我就

  •         Enhydra Shark 项目以一种不同的方式交付了一个工作流服务器。       Enhydra Shark 是一个可扩展的工作流引擎框架,它包括一个完全基于 WFMC 规范的标准实现,它使用XPDL(没有任何自己新的扩展)作为自身的工作流流程定义格式,使用WFMC 的"ToolAgents" API 作为系统活动的服务器端的执行形式。Enhydra JaWE 图形XPDL编辑

  • 1.下载shark-1.1-2.解压到D盘下(不是必要)    2.把数据库驱动放到shark/lib目录下    在你使用的数据库系统里建立空数据库 这里以shark为数据库名 3.修改shark-1.1-2/configure.properties配置文件 修改内容如下:    1)jdk_dir=D:/j2sdk1.4.2_04    //这里填你的jdk目录       db_ext_di

  • 为了让shark适用于中国国情的工作流应用,目前已完成或改造技术点如下: 技术点名称 1.交接班当班值长精确移交任务 2. 取下一活动ID 3.查阅流程历史活动记录 4.过期活动提示,有新任务弹出提示用户 5.根据当前活动取下一活动的参与者映射人员 6. 强大参与者映射,可映射外部(企业自己数据库)组织机构,人员, 角色,资格等 7. 任务关联业务数据 8. 任务只发给指定人 9. 各步骤流程图

 相关资料
  • 我正在努力让Spring JPA Data为我工作,但一直在努力。问题出在这里。 我有两个域类,它们之间有一个简单的一对多关系: 我已经为每个类设置了存储库接口:CardRepository,扩展JpaRepository的用户存储库,两个存储库都注入到服务中 非常基本的设置。someMethod() 出现问题,其中我用它的标识符查询了一个用户,然后尝试获取映射@OneToMany的列表,然后发生

  • 在使用Spring数据存储库时发现一些奇怪的行为。 我写了这些类和接口: 当我尝试测试UserRepositoryImpl时,java。lang.StackOverflowerr被抛出 我发现save()方法存在一些问题。此外,delete()方法会引发stackoverflow。 我已经找到了解决办法。当我更改将存储库接口扩展为(例如)JpaUserRepository的接口的名称时,我的问题就

  • 主要内容:1.离线数仓,2.Lambda架构,3.Kappa架构,4.Smack架构,5.湖仓一体传统数仓 离线数仓 实时数仓 Lambda架构 Kappa架构 Smack架构 数据湖架构 仓湖一体架构 1.离线数仓 2.Lambda架构 Lambda架构是大数据平台里最成熟、最稳定的架构,它的核心思想是:将批处理作业和实时流处理作业分离,各自独立运行,资源互相隔离。 (1)Batch Laye:主要负责所有的批处理操作,支撑该层的技术以Hive、Spark-SQL或MapReduce这类批处

  • 英文自我介绍和项目介绍 Good Afternoon, my name is Wang Longjiang,graduated from Anhui University. I have been working in the Institute of Aerospace Information, Chinese Academy of Sciences for two years. Focus o

  • 主要内容:1.ETL,2.ELT,3.ELT的演变,4.ELT的工作原理,5.什么时候我们选择ELT,6.数据湖是不是很好的ELT落脚点,7.总结ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换 1.ETL ETL - 抽取、转换、加载 从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或数据仓库中。另一种 ETL 集成方法是反向 ETL,它将结构化数据从数据仓库中加载到业务数据库中,如我们

  • 写在前面:这段时间经过了一段高强度笔面,但还是颗粒无收 面试 面试官进来就说:你不会flink? 我:了解的不多 那我们这次可能通过概率不大,但我们仍然可以就大数据来一波交流 实时: Flink的checkpoint Flink的反压 Flink的状态后端 离线: Kafka的有序性(不可全局有序,但可分区有序)面试官说不对??我让他下去再好好看看 Kafka一定不会丢数据嘛? Spark的内存模