当前位置: 首页 > 知识库问答 >
问题:

Pig筛选器由于意外数据而失败

司空朝
2023-03-14

我正在运行Cassandra并且有大约20K的记录在里面玩。我试图在pig中对此数据运行筛选器,但收到以下消息:

2015-07-23 13:02:23,559[Thread-4]警告org.apache.hadoop.mapred.localJobRunner-job_local_0001 java.lang.runtimeException:com.datastax.driver.core.exceptions.invalidQueryException:org.apache.pig.backend.hadoop.executionengine.mapreduceLayer.pigRecordreader.initnextRecordreader(pigRecordreader.java:260)x.driver.core.exceptions.invalidqueryexception.copy(invalidqueryexception.java:35)在com.datastax.driver.core.defaultsultsetfuture.extractcausefromexecutionexception(defaultsultsetfuture.java:263)在com.datastax.driver.core.defaultsultsetfuture.getuninterruptibly(defaultsultsetfuture.179)在

你会认为这是一个明显的错误,相信我,在谷歌上有很多关于这个的结果。很明显,我的某些数据不符合给定列的预期类型。我不明白的是1.)为什么会发生这种情况,以及2.)如何调试。如果我尝试从nodejs应用程序向Cassandra插入无效数据,如果我的数据类型与columns数据类型不匹配,它会抛出这种错误,这意味着这不应该是可能的?我读过使用UTF8的数据验证是不稳定的,并且设置不同类型的验证是答案,但我不知道如何做到这一点。下面是我复制的步骤:

grunt>定义CqlNativeStorage org.apache.cassandra.hadoop.pig.CqlNativeStorage();grunt>test=使用CqlNativeStorage()加载'cql:/blah/blahblah';咕噜>描述测试;13:09:54.544[main]DEBUG o.a.c.hadoop.pig.cqlnativeStorage-找到ksDef名称:blah 13:09:54.544[main]DEBUG o.a.c.hadoop.pig.cqlnativeStorage-分区键:[“ad_id”]13:09:54.544[main]DEBUG o.a.c.hadoop.pig.cqlnativeStorage-群集键:[]13:09:54.544[main]DEBUG o.a.c.hadoop.pig.cqlnativeStorage-行键验证器:Grunt>转储查询1;

然后,它运行了一段时间,倾倒出数吨的日志,错误就出现了。

共有1个答案

农建弼
2023-03-14

发现了我的问题:pig分区器与CQL3不匹配,因此数据被错误解析。以前的环境变量是pig_partitioner=org.apache.cassandra.dht.randompartitioner。在我将它更改为pig_partitioner=org.apache.cassandra.dht.murmur3partitioner之后,它开始工作。

 类似资料:
  • 我想选择数据表()的特定行值(此处),其中过滤条件位于其他数据表()中。它不是一个精确的过滤器,因为如果我在中有值3,我在中就有这个值的最小值和最大值变量。此外,我有一个字符串,其中包含特定的模式。例如: 中的 和 中的相应行包含 , 和 ,即 。 我在寻找这个值所在的范围和最大目标值的直线。 我有以下简化的例子: 看起来像这样: 我包括<code>大小 到目前为止,我的解决方案如下: 我写了一个

  • 选择数据表格头部 图标,可以选择表格内字段进行复杂条件筛选; 筛选结果在表格内显示; 选择: 选择图层内字段名称 约束条件: 对选择的该字段指定条件,条件一般有等于、小于、大于等(数值型字段)、或者包含、不包含等(文本型字段)... 约束值:输入需要限制的值 可以支持多种条件同时筛选、或者任选其一条件满足;

  • 在泽西1. x中,您可以使用对表单数据进行请求过滤,但我在泽西2. x中没有看到明显的等效项。我已经实现了接口,它让我可以访问,但是从那里如何获取表单数据呢? 泽西1. x示例: 球衣2。x示例:

  • 我刚来爪哇。我正在Windows7(64位)上安装Java8,但当我启动Java任务控制时,这个弹出。我做什么? 谢谢 错误

  • 这一组数据在进行groupby前已经完成筛选,但进行groupby聚合后的结果显示是利用未筛选的数据进行的聚合,就像下面的结果,在groupby前已经完成点击量非0过滤,但最后仍存在含0的资源,询问chatGPT给的方案是可能用索引前的数据进行的聚合,重置索引后仍无法解决,请教大牛是否遇到过类似的问题,虽然可以在聚合后重新进行filter过滤,但这个问题搞得很焦灼 代码源文本

  • 我是nodejs测试的新手,使用mocha和Chai。现在,我在使用mocha测试API路由处理程序时遇到了问题。我的路由处理程序代码是 Upload函数只是一个multer实用程序,用于存储imagefile。我的测试代码是 运行此代码后显示的输出为