问题：

将数据从网站加载到hdfs

宋昕

2023-03-14

我需要将存在于Web链接上的数据上传到hdfs，例如“博客”。

现在，我正在寻找实现这一目标的选项，可以找到以下链接:

http://blog . cloud era . com/blog/2012/09/analyzing-Twitter-data-with-Hadoop/

但是通过水槽文档阅读，我不清楚如何设置水槽源来指向博客内容所在的网站。

根据我对 fluem 文档的理解，需要有网络服务器，我需要在其中部署应用程序然后将生成网络日志，这些日志将通过水槽传输到 hdfs .

但是我不想要Web服务器日志，实际上我正在寻找博客内容（即博客上的所有数据评论，如果有的话），这是一个非结构化数据，然后我正在考虑使用java map-reduce进一步处理这些数据。

但不确定我正朝着正确的方向前进。

我也通过了pentaho。但不清楚使用PDI是否可以从网站获取数据并将其上传到hdfs。

上面的任何信息都会很有帮助。

先谢谢你。

共有1个答案

蒋昊天

2023-03-14

Flume可以拉取数据（如Twitter），也可以使用FlumeAppender将数据推送到Flume，如服务器日志。

将博客数据输入HDFS

a）博客应用程序应该将数据推送到HDFS，就像FlumeAppender的情况一样。必须对博客应用程序进行更改，这在大多数情况下并非如此。

或

b） Flume可以使用适当的API提取博客数据，就像Twitter一样。Blogger提供了一个API来提取代码，可以在Flume源代码中使用。Cloudera博客引用了Flume代码，从Twitter中提取数据。

类似资料：

八、从网络加载数据

除了从文件加载数据，另一个流行的数据源是互联网。我们可以用各种各样的方式从互联网加载数据，但对我们来说，我们只是简单地读取网站的源代码，然后通过简单的拆分来分离数据。 import matplotlib.pyplot as plt import numpy as np import urllib import matplotlib.dates as mdates def graph_data(s
将json数据从文件加载到Postgres

问题内容：我需要从多个JSON文件中加载数据，每个文件中都有多个记录到Postgres表中。我正在使用以下代码，但无法正常工作（在Windows上使用pgAdmin III） SAMPLE.JSON文件的内容是这样的（从许多这样的记录中得到两个记录）：问题答案：试试这个：
将数据从MS SQL表加载到snappyData

我正在使用Tibco ComputeDB，这对我来说是新的。它使用sparkDB和snappydata。我想把数据从MS SQL添加到SnappyData的内存表中。我可以从CSV读取数据，并使用以下命令将其加载到snappyDaya中。现在，同样的方式，我想从MS SQL读取数据，并想将其添加到snappyData中，但无法找到正确的方法。我遵循了下面的文档，能够连接到MS SQL serv
将数据从google云存储加载到BigQuery

我需要从Google Cloud Storage（GCS->Temp Table->Main table)中加载100个表到BigQuery。我创建了一个python进程，将数据加载到BigQuery中，并在AppEngine中进行调度。因为AppEngine最多有10min的超时时间。我已经在异步模式下提交了作业，并在稍后的时间点检查了作业状态。由于我有100个表，需要创建一个监控系统来检查作业
将数据从CSV加载到mySQL数据库Java + Hibernate + Spring

问题内容：我正在尝试使用Java + Hibernate + Spring将CSV文件加载到mySQL数据库中。我在DAO中使用以下查询来帮助我加载到数据库中：我有一些想法可以从http://dev.mysql.com/doc/refman/5.1/en/load- data.html 使用它，以及如何从hibernate +spring应用程序将csv文件导入到mysql中？但是我得到了错
如何将数据从Cassandra加载到Apache Flink数据流

尝试使用Apache Flink从Cassandra获取数据，引用本文，我可以读取数据，但我不知道如何将其加载到DataStream对象中。代码如下：我试过了将变量中的数据加载到数据流中

将数据从网站加载到hdfs

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档