Yahoo Pig简介

缪修德
2023-12-01

Yahoo Pig 是一个运行在Hadoop(Doug Cutting 在06年3月份加入了Yahoo )上的并行处理架构,有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。
Pig目前还是apache的一个孵化器项目,
Pig 主页:http://incubator.apache.org/pig/
Pig wiki:http://wiki.apache.org/pig/
Yahoo Pig 有如下特点:
1、专注于于大量数据集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem );
2、运行在集群的计算架构上,Yahoo Pig 提供了多层抽象,简化并行计算让普通用户使用;这些抽象完成自动把用户请求queries翻译成有效的并行评估计划,然后在物理集群上执行这些计划;
3、提供类似 SQL 的操作语法;
4、开放源代码

 类似资料: