我需要将存在于Web链接上的数据上传到hdfs,例如“博客”。
现在,我正在寻找实现这一目标的选项,可以找到以下链接:
http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/
但是通过水槽文档阅读,我不清楚如何设置水槽源来指向博客内容所在的网站。
根据我对 fluem 文档的理解,需要有网络服务器,我需要在其中部署应用程序然后将生成网络日志,这些日志将通过水槽传输到 hdfs .
但是我不想要Web服务器日志,实际上我正在寻找博客内容(即博客上的所有数据评论,如果有的话),这是一个非结构化数据,然后我正在考虑使用java map-reduce进一步处理这些数据。
但不确定我正朝着正确的方向前进。
我也通过了pentaho。但不清楚使用PDI是否可以从网站获取数据并将其上传到hdfs。
上面的任何信息都会很有帮助。
先谢谢你。
Flume可以拉取数据(如Twitter),也可以使用FlumeAppender将数据推送到Flume,如服务器日志。
将博客数据输入HDFS
a) 博客应用程序应该将数据推送到HDFS,就像FlumeAppender的情况一样。必须对博客应用程序进行更改,这在大多数情况下并非如此。
或
b) Flume可以使用适当的API提取博客数据,就像Twitter一样。Blogger提供了一个API来提取代码,可以在Flume源代码中使用。Cloudera博客引用了Flume代码,从Twitter中提取数据。
除了从文件加载数据,另一个流行的数据源是互联网。 我们可以用各种各样的方式从互联网加载数据,但对我们来说,我们只是简单地读取网站的源代码,然后通过简单的拆分来分离数据。 import matplotlib.pyplot as plt import numpy as np import urllib import matplotlib.dates as mdates def graph_data(s
问题内容: 我需要从多个JSON文件中加载数据,每个文件中都有多个记录到Postgres表中。我正在使用以下代码,但无法正常工作(在Windows上使用pgAdmin III) SAMPLE.JSON文件的内容是这样的(从许多这样的记录中得到两个记录): 问题答案: 试试这个:
我正在使用Tibco ComputeDB,这对我来说是新的。它使用sparkDB和snappydata。我想把数据从MS SQL添加到SnappyData的内存表中。 我可以从CSV读取数据,并使用以下命令将其加载到snappyDaya中。 现在,同样的方式,我想从MS SQL读取数据,并想将其添加到snappyData中,但无法找到正确的方法。我遵循了下面的文档,能够连接到MS SQL serv
我需要从Google Cloud Storage(GCS->Temp Table->Main table)中加载100个表到BigQuery。我创建了一个python进程,将数据加载到BigQuery中,并在AppEngine中进行调度。因为AppEngine最多有10min的超时时间。我已经在异步模式下提交了作业,并在稍后的时间点检查了作业状态。由于我有100个表,需要创建一个监控系统来检查作业
问题内容: 我正在尝试使用Java + Hibernate + Spring将CSV文件加载到mySQL数据库中。我在DAO中使用以下查询来帮助我加载到数据库中: 我有一些想法可以从http://dev.mysql.com/doc/refman/5.1/en/load- data.html 使用它,以及如何从hibernate +spring应用程序将csv文件导入到mysql中? 但是我得到了错
尝试使用Apache Flink从Cassandra获取数据,引用本文,我可以读取数据,但我不知道如何将其加载到DataStream对象中。代码如下: 我试过了 将变量中的数据加载到数据流中