我正在使用twitter cloudera示例创建一个表,虽然我已经成功地创建了表并获得了数据,但我遇到了一个问题。
我可以执行select*from tweets;
并返回数据,但当我进行更深入的操作(如count(*)
)时,我会收到一个错误。
以下是错误和堆栈跟踪:
hive>从tweets中选择计数(*);MapReduce作业总数=1启动作业1编译时确定的1个reduce任务中的1个:1为了更改还原器的平均负载(以字节为单位):set hive.exec.reducers.bytes.per.reducer=为了限制还原器的最大数量:set hive.exec.reducers.max=为了设置恒定的还原器数量:set mapred.reduce.tasks=启动作业=job_1402410026954_0004,Tracking URL=http://bigdatalite.localdomain:8088/proxy/application_1402410026954_0004/Kill命令=还原器数量:1 201 4-06-10 13:07:28,078 Stage-1 map=0%,reduce=0%2014-06-10 13:07:39,983 Stage-1 map=100%,reduce=0%2014-06-10 13:07:41,071 Stage-1 map=0%,reduce=0%2014-06-10 13:08:18,527 Stage-1 map=100%,reduce=100%结束作业=job_1402410026954_0004作业期间出错,获取调试信息...正在检查任务ID:作业Job_1402410026954_0004_M_000000(及更多)(来自作业job_1402410026954_0004
失败次数最多的任务(4):-----任务ID:task_1402410026954_0004_m_000000
失败:执行错误,从org.apache.hadoop.hive.ql.exec.mr返回代码2。MapRedTask MapReduce已启动作业:作业0:映射:1 Reduce:1 HDFS读取:0 HDFS写入:0失败MapReduce所用CPU总时间:0毫秒
有什么想法吗?
将所需库复制到hadoop lib文件夹中也解决了这个问题。
当我运行以下配置单元命令时 hive-e‘选择msg,将(*)从表中计数为cnt,其中像“%abcd%”这样的msg按msg排序按cnt desc;’sed的/[\t]/,/g'>table.csv 失败:ParseException第1:89行无法识别表达式规范中“like”“%”“password”附近的输入 我知道在指定字符串“%abcd%”时有问题。该命令在配置单元环境中工作正常,但这里我
为了提高配置单元查询的性能,有哪些优化参数 配置单元版本:-Hive 0.13.1-cdh5.2.1 配置单元查询:- 设置hive.exec.parallel=true; 您能建议任何其他设置,除了以上,以提高配置单元查询的性能,我正在使用的类型查询。
我是Spark和Scala的新手;) 代码摘要: 从CSV文件读取数据-- 你能帮我找出哪里出了问题吗。代码并不复杂。该作业在集群上执行良好。所以,当我试图可视化写在配置单元表上的数据时,我面临着一个问题。 蜂箱 失败与异常java.io.IOException:java.io.IOException:hdfs://m01.itversity.com:9000/user/itv000666/war
我对这些技术的理解是否正确?
我在执行配置单元查询时遇到异常。我关注以下链接:http://www.thecloudavenue.com/2013/03/analysis-tweets-using-flume-hadoop-and.html 终端数据在这里:
我是配置单元新手,正在尝试将配置单元查询导出到计算机上的本地文件,以便将结果导入excel。 当我从蜂巢里做的时候; 配置单元-e从表限制中选择*10' I get“失败:ParseException行1:0无法识别“配置单元”-“e”附近的输入” 当我这么做的时候 配置单元-S-e“使用数据库;从表限制10中选择*” 来自shell或 插入覆盖本地目录“/tmp/hello”从表limit 10