当前位置: 首页 > 知识库问答 >
问题:

无法读取部件-00000(MapReduce输出)

姬昀
2023-03-14

我正在尝试读取配置为Avro格式的map reduce函数的结果,但我不能。

part-00000文件的头部看起来像这样:

0

等等(左边的数字在文件中!!)。

我怎么能读这个文件?

共有2个答案

谢墨竹
2023-03-14

你想手动阅读吗?下载avro工具Jarhttps://www.apache.org/dyn/closer.cgi/avro/在/java/avro-#.##/avro工具-#.#.#。jar然后运行:

java-jaravro工具-*。jartojson部分-00000。阿夫罗

如果您有一个有效的Avro输出,json文件应该包含存储在-00000部分中的对象。阿夫罗。

顾宣
2023-03-14

有像avrocat和avropipe这样的实用程序avrocat使用Avro规范定义的JSON编码,在一行上输出Avro文件中的每条记录。avropipe为每条记录中的每个“字段”生成单独的行;它的输出(粗略地说)是通过jsonpipe工具对每个记录进行JSON编码所得到的结果。

参考:http://apache-avro.679487.n3.nabble.com/Getting-started-with-Avro-Reading-from-an-Avro-formatted-file-td3685069.html

 类似资料:
  • 问题内容: 我一周前开始使用Java,现在我想在窗口中插入一个图像。无论我尝试什么,我都会在Eclipse中继续使用它: javax.imageio.IIOException:无法读取输入文件! } 我认为代码很容易解释。我试图解决这个问题 我想做的是一个桌面程序,我的源代码存储如下:training / src / graphics / Window training / src / src /

  • 问题内容: 我对Logstash有一个奇怪的问题。我正在提供一个日志文件作为logstash的输入。配置如下: 我已经在运行elasticsearch服务器并验证是否正在使用curl查询接收数据。问题是,当输入为时,没有数据被接收。但是,如果我将输入更改为以下内容,它将顺利发送所有输入数据: 我不明白我要去哪里错了。有人可以看看这个吗? 问题答案: 您应该在文件部分下设置start_positio

  • 问题内容: 这是我的第一篇文章,请问如果我做错了什么。直到我尝试从源包中读取图像,此代码才能正常运行。但是现在它无法读取任何图像。我究竟做错了什么?还是关于日食的事? 例外: 谢谢… 问题答案: 改变了,如果你使用的是Windows。 更跨平台的方法将替代 对于每对。 进一步了解File api文档 编辑 (对不起,我没有读过此行) 这段代码运行正常,直到我尝试从源包中读取图像 为了从jar包中获

  • 我的目标是在Cloudera集群上运行一个简单的MapReduce作业,该作业从虚拟HBase数据库读取并写入HDFS文件。 一些重要的注意事项:-我以前在这个集群上成功运行过MapReduce作业,这些作业将HDFS文件作为输入,并写入HDFS文件作为输出。-我已经将用于编译项目的库从“纯”HBase替换为HBase-cloudera jars-当我以前遇到这类问题时,我只是简单地将库复制到分布

  • 问题内容: 我不知道为什么这不起作用,但是程序说它无法读取输入文件。顺便说一下,这也在Ubuntu中运行: 这是示例代码: 该目录也位于程序的bin文件夹和src文件夹中。 问题答案: 如果您改为从资源流中获取图像怎么办?例如,

  • 问题内容: 我正在编写一个连接到servlet的程序,这要感谢a,但是我在检查url时卡住了 我得到了错误: java.net.ProtocolException:读取输入后无法写入输出。 如果我用注释中的代码检查网址,但不幸的是它可以正常工作,我需要检查网址,所以我认为问题出在方法上,但我不知道如何解决 非常感谢你 问题答案: HTTP协议基于请求-响应模式:首先发送请求,然后服务器响应。服务器