问题：

Apache flume twitter代理不流数据

有耀

2023-03-14

我试图将twitter提要流到hdfs，然后使用Hive。但是第一部分，流数据和加载到hdfs不起作用，并给出空指针异常。

这是我尝试过的。

bin  CHANGELOG  conf  DEVNOTES  docs  lib  LICENSE  logs  NOTICE  README  RELEASE-NOTES  tools

TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS

TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sources.Twitter.consumerKey = <Twitter Application API key>
TwitterAgent.sources.Twitter.consumerSecret = <Twitter Application API secret>
TwitterAgent.sources.Twitter.accessToken = <Twitter Application Access token>
TwitterAgent.sources.Twitter.accessTokenSecret = <Twitter Application Access token secret>
TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics, bigdata, couldera, data science, data scientist, business intelligence, mapreduce, datawarehouse, data ware housing, mahout, hbase, nosql, newsql, businessintelligence, cloudcomputing

TwitterAgent.sinks.HDFS.channel = MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:8020/user/flume/tweets/%Y/%m/%d/%H/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 600

TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100

4.我将flume-sources-1.0-snapshot.jar添加到/user/lib/flume/lib。

5.启动Hadoop并执行以下操作

hadoop fs -mkdir /user/flume/tweets
hadoop fs -chown -R flume:flume /user/flume
hadoop fs -chmod -R 770 /user/flume

6.我在/user/lib/flume中运行以下内容

/usr/lib/flume/conf$ bin/flume-ng agent -n TwitterAgent -c conf -f conf/flume-conf

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:8020</value>
        <fina1>true</fina1>
    </property>
</configuration>

共有1个答案

季凡

2023-03-14

我运行以下命令，它得到了工作

bin/flume-ng agent –conf ./conf/ -f conf/flume.conf -Dflume.root.logger=DEBUG,console -n TwitterAgent

类似资料：

Dataprep不起作用-云数据流服务代理

我在删除服务帐户中的用户时出错，我应该删除另一个用户。之后，Dataprep停止运行作业。我已经检查了关于dataflow和DataPrep的所有准则：如果API是启用的（是的，它是启用的）。如果有一个适当的服务帐户（是）。但我不知道给这些账户分配什么规则。我尝试为该帐户分配“云数据流服务代理”角色，但它不适合我附：我的英语正在进步，有些错误很抱歉。
apache代理tcp流量

我有个奇怪的问题。我有http流量进入端口80,由我的vhosts文件管理,代理到内部web服务器,但我也有tcp非http流量进入端口80,需要代理到端口80上的另一个内部服务器。我已经尝试了mod重写规则来尝试隔离非http通信的源ip地址，并创建一个规则来代理它到我的其他内部主机，但这也不起作用。我将windows与apache一起使用，如果可能的话，我更愿意使用apache来实现这一
在Python数据流/ Apache Beam上启动CloudSQL代理

问题内容：我目前正在从事ETL Dataflow作业（使用Apache Beam Python SDK），该作业从CloudSQL查询数据（带有和自定义）并将其写入BigQuery。我的目标是创建一个数据流模板，该模板可以使用Cron作业从AppEngine开始。我有一个使用DirectRunner在本地工作的版本。为此，我使用CloudSQL（Postgres）代理客户端，以便可以连接到12
Liskov代换原理与流

存在无法写入或查找的流派生类这一事实是否违反了Liskov替换原则？例如，无法查找NetworkStream，如果调用方法，它将抛出。还是因为存在标志就可以了？考虑到众所周知的继承自的例子...将标志和添加到是否可以解决问题？这难道不是打开了通过添加旗帜来解决问题的大门吗？
使用数据流指定自定义用户代理

我正试图通过PipelineOptions自定义用于不同GCP调用的用户代理。setUserAgent。然而，它似乎总是回到。看看Beam代码库，用户代理似乎是由数据流转轮强制的：https://github.com/apache/beam/blob/ce9ee0b034cef66ea3845ca049770b9a354a4fd4/runners/google-cloud-dataflow-j
Flink:窗口不处理流末尾的数据

我有一个流（KafkaMSG流到一个主题上），有一个flinkKafka消费者，我注意到一个有趣的行为，我想解决这个问题。当数据正在流入时，如果它在窗口“完成”之前停止，或者如果数据结束（在几个窗口之后）并且没有到达窗口的末尾，则管道的其余部分不会触发。流程示例：我正在使用的Flink Kafka消费者010与env时间特性设置为事件时间。和consumer.assign时间戳和水印（新周期

Apache flume twitter代理不流数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档