当前位置：首页 > 专题 >

《hive》专题

Cassandra-Hive集成
集成Cassandra和Hive的最佳实践是什么？关于堆栈溢出（卡桑德拉和蜂巢）的一个老问题指向轻快，它现在已经成为仅限订阅的Datastax企业产品。谷歌搜索只指向两个未解决的jira问题， https://issues.apache.org/jira/browse/CASSANDRA-4131 https://issues.apache.org/jira/browse/HIVE-1434
Spark SQL在从Hive表加载数据时如何决定它将使用的分区数量？
该问题与通过从Hive表中读取数据而创建的spark数据帧的分区数量相同但我认为这个问题没有得到正确答案。请注意，问题是，当使用SparkSession对HIVE表执行sql查询而创建数据帧时，将创建多少个分区。sql方法。 IIUC，上面的问题不同于询问当执行诸如之类的代码直接从文件系统（可能是HDFS）加载数据时，将创建多少个分区。我认为后一个问题的答案由spark.sql.files.ma
Spark性能问题vs Hive
我正在开发一条每天都会运行的管道。它包括连接两个表，比如x 以下是关于环境的事实，对于表x：数据大小：18 MB 分区中的文件数：~191 文件类型：拼花地板对于表y： < li >数据大小:1.5 GB < li >一个分区中的文件数:~3200 < li >文件类型:拼花地板现在的问题是：我尝试了不同的资源组合的火花工作。例如。：执行者：50内存：20GB内核：5 执行者：70内
从使用Spark连接Hive表读取记录
我们可以使用以下命令轻松地从 Spark 中的 Hive 表中读取记录：但是当我连接两个表时，例如：如何从上面的连接查询中检索记录？
在Spark SQL中使用map datatype查询配置单元表时出错。但是在HiveQL中执行时工作
我有下面结构的蜂房桌子但是当我在Spark SQL中尝试相同的查询时。我犯了错误由于数据类型不匹配，无法解析：在org.apache.spark.sql.catalyst.analysis.package$analysiserrorat.failanalysis(package.scala:42)在org.apache.spark.sql.catalyst.analysis.checkanal
Spark Hive表连接策略
我有一个140亿记录的Hive表（大约1TB大小）和另一个8亿记录的Hive表（2GB大）。我想加入它们，我的策略应该是什么？我有一个36节点集群。我使用50个执行器，每个执行器30 GB。据我所知，我的选择是：广播2 GB表只是盲目地连接2个表（我已经这样做了，需要将近4个小时才能完成）如果我将两个表重新分区并连接起来，会提高性能吗？我观察到在第二种方法中，最后20个任务非常慢，我希望它
用java中的hiveContext修复配置单元表
Spark HiveContext-读取外部分区配置单元表分隔符问题
我有一个外部分区配置单元表，下面的文件行格式分隔字段以“通过配置单元直接读取数据就可以了，但是当使用Spark的Dataframe API时，分隔符”没有被考虑在内。创建外部分区表： dataframe.show（）输出：
Hive ALTER命令删除值超过24个月的分区
我有一个配置单元表(consumer_data)，其分区列'val_dt'，这是一个字符串列，其值为日期格式'yyyy-mm'。
修正Spark SQL中抛出解析异常的Hive SQL查询
在Hive中执行以下查询很好：分区日期是类型字符串，但这是可以的。目标是删除比特定日期更早的分区。问题是在哪里可以找到Spark SQL中必须转义的字符，是否有任何方法可以在Spark SQL中编写与在Hive中相同的查询？
AccessControlException:使用Hive仓库时，客户端无法通过[TOKEN，KERBEROS]进行身份验证
我们最近在 Spark 群集上启用了 Kerberos 身份验证，但我们发现，当我们在群集模式下提交 Spark 作业时，代码无法连接到 Hive。我们是否应该使用 Kerberos 对 Hive 进行身份验证，如果是，如何进行身份验证？如下所述，我认为我们必须指定keytab和校长，但我不知道具体是什么。这是我们得到的例外: 此外，我看到了这个异常: 这是产生异常的脚本，如您所见，它发生在<
使用 jdbc 与 kerberos keytab 访问 hive metastore
我正在尝试连接到配置为使用Kerberos进行身份验证的蜂巢元存储。当我不尝试使用keytab文件时，即当程序在身份验证过程中提示我输入密码时，这对我很有效。当我将配置更改为使用keytab时，我会收到一个长堆栈跟踪，其中包含以下语句：有人能对我做错了什么提出建议吗？如果相关的话，我的问题的背景是，我想从mapreduce作业访问配置单元元存储，当然，mapreduced作业无法响应提示。我
Spark 2.3.0 SQL无法将数据插入hive hbase表
使用与hive 2.2.0集成的Spark2.3thriftserver。从火花直线运行。尝试将数据插入配置单元hbase表（以hbase作为存储的配置单元表）。插入到配置单元本机表是可以的。当插入到配置单元hbase表时，它会引发以下异常：
Oozie和hive：failed：SemanticException无法获取表
我今天刚开始Oozie，在运行Hive操作时注意到一个不一致的错误。当我运行相同的Oozie工作流时，有时它会成功，有时它会失败，因为配置单元操作出现了以下错误： 1）这是什么原因造成的？
hive-jdbc-standalone.jar未被tomcat 7加载
我正试图从web应用程序连接到配置单元节约服务器(hiveserver2)。我在Eclipse中创建了dynamic web project，并在WEB-INF/lib下添加了以下JAR- null 是否有一种方法可以从hive-jdbc-0.14.0-standalone.jar或Tomcat中排除javax.servlet.servlet？

首页

8

9

10

11

12

13

14

15

16

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读