问题：

Hadoop实时实现

拓拔松

2023-03-14

我知道Sqoop中可用的选项，但如果我是正确的，我想知道Sqoop是如何在实时实现中使用的（通常）

1.1sqoop命令放在shell脚本中，从调度程序/事件触发器调用。我可以有实时代码-这方面的例子，特别是在shell脚本中向Sqoop动态传递参数（如表名）。

1.2相信Ooozie工作流也可以使用。请举例说明

抱歉问了太多问题。我没有看到任何关于如何在实时场景中使用这些组件的文章/博客。

提前谢了。

共有1个答案

程振濂

2023-03-14

您没有看到关于在实时场景中使用这些组件的文章，原因是这些组件不是面向实时的，而是面向批处理的。

Scoop：不是实时使用的--它是面向批处理的。我会用水槽之类的东西来摄取数据。

猪，蜂巢：同样，还没有实时准备好。两者都是面向批量的。每个查询/脚本的设置时间可能需要几十秒。你可以用火花流（它甚至支持水槽）之类的东西来代替这两者。

类似资料：

Hadoop 0.20.205的CombineFileInputFormat的实现

问题内容：有人可以指出我在哪里可以找到（组织使用Hadoop 0.20.205的）实现吗？这是使用EMR从很小的日志文件（行中的文本）创建较大的拆分。令人惊讶的是，Hadoop没有为此类专门为此目的而设计的默认实现，并且对其进行谷歌搜索似乎不是我唯一对此感到困惑的人。我需要编译该类并将其捆绑在jar中以进行hadoop流处理，但对Java的了解有限，这是一个挑战。编辑：我已经尝试了Yetit
必须实现Hadoop MapReduce RecordReader？

对于许多应用程序来说，基于输入大小的逻辑拆分是不够的，因为要尊重记录边界。在这种情况下，应用程序还必须实现一个RecordReader，该RecordReader负责尊重记录边界，并向单个任务呈现逻辑输入拆分的面向记录的视图。 WordCount示例应用程序中基于输入大小的逻辑拆分是否不足？如果是，在源代码中的什么地方可以找到RecordReader的实现？
Hadoop概述/MapReduce/实例/WordCount

package com.run.ayena.distributed.test; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apa
Hadoop概述/MapReduce/实例/SingleWordCount

package com.run.ayena.distributed.test; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.h
无法实例化Hadoop hdfs DistributedFileSystem

我已经建立了一个hadoop hdfs集群，由于我是hadoop新手，我一直在尝试按照一个简单的示例从我在本地机器上编写的java驱动程序中读/写hdfs。我尝试测试的示例如下：其中，功能如下：该项目是一个maven项目，将hadoop-通用-2.6.5、hadoop-hdfs-2.9.0和hadoop=hdfs-Client 2.9.0添加到依赖项中，并配置为构建包含所有依赖项的jar。我
基于spring实现websocket实时推送实例

本文向大家介绍基于spring实现websocket实时推送实例，包括了基于spring实现websocket实时推送实例的使用技巧和注意事项，需要的朋友参考一下基于spring框架来写的，websocket实时推送例子，具体内容如下第一步：自己搭建一个springmvc项目，很简单，网上百度都有；pom文件添加以下：我的spring版本是4.2.4的，所以websocket也是4.2.4的

Hadoop实时实现

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档