当前位置: 首页 > 知识库问答 >
问题:

对大型文件使用Hadoop上的FTP

龙俊英
2023-03-14

我们需要一个能够存储大量大型csv文件(1000个文件,每天每个1GB)的系统。

还有一些客户端应该连接到此系统并下载csv文件

系统应该容错和可扩展...

我考虑使用Hadoop集群并在其上运行FTP服务器。。。

Hadoop适合这个项目吗?

如果没有,什么技术是合适的?

共有1个答案

浦修文
2023-03-14

是的,Hadoop框架适用于大文件(可能摄取的文件大小大于256 MB的块大小)。

Hadoop的主要优点是它可以在便宜的硬件上运行。Hadoop在处理小文件(以Kb为单位)方面存在一些问题。

Hadoop提供了容错能力,因为文件将在集群中复制3次(默认情况下),可以增加或减少。

Hadoop允许跨节点分布式处理数据。

它也很容易扩展。

如果您想在两个HDFS集群之间进行复制,那么有Distcp进程,您可以查看以下链接

https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_admin_distcp_data_cluster_migrate.html

 类似资料:
  • 问题内容: 我正在使用Hadoop示例程序WordCount处理大量的小文件/网页(大约2-3 kB)。由于这与hadoop文件的最佳文件大小相去甚远,因此该程序非常慢。我猜这是因为安置和撕毁工作的成本远远高于工作本身。这样的小文件还会导致文件名的命名空间耗尽。 我读到在这种情况下,我应该使用HDFS存档(HAR),但是我不确定如何修改此程序WordCount以从此存档中读取。程序可以在不进行修改

  • 问题内容: 我目前正在尝试针对更大的csv文件(3.000.000行)使用大量的ID(〜5000)。 我想要所有包含ID文件中ID的csv行。 我的幼稚方法是: 但这需要永远! 有没有更有效的方法来解决这个问题? 问题答案: 尝试 另外,由于您的模式似乎是固定的字符串,因此提供选项可能会加快速度。

  • 问题内容: 我正在尝试使用“流式” Apache Commons File Upload API上传大文件。 我使用Apache Commons File Uploader而不是默认的Spring Multipart Uploader的原因是,当我们上传非常大的文件大小(〜2GB)时,它失败了。我在GIS应用程序上工作,这种文件上传非常常见。 我的文件上传控制器的完整代码如下: 麻烦的是,始终返回

  • 主要内容:一、写在前面,二、原始的文件上传方案,三、HDFS对大文件上传的性能优化,1. Chunk缓冲机制,2. Packet数据包机制,3. 内存队列异步发送机制,四、总结一、写在前面 上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。 主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。 如果没看那篇文章的同学,可以回看一下:《每秒上千次高并发访问

  • 我试图使用“流式”Apache Commons文件上传API上传一个大文件。 我使用Apache Commons文件上传器而不是默认的Spring多部分上传器的原因是,当我们上传非常大的文件大小(~2GB)时,它会失败。我在一个GIS应用程序中工作,这样的文件上传非常常见。 我可能做错了什么?

  • ...行号不在文件中。每一行都是一个5维向量,并表示k-means算法的初始聚类质心。这里我们有5个初始集群。 接下来,我们有一个必须分配给集群的数据点文件,称为data.txt,如下所示: 这里的...表示我们有很多行数据点(对于这个问题,~10000)。同样,每一行都是一个5维向量。 这都有点让人摸不着头脑。我在main()或run()函数中创建hadoop配置对象吗?我在main函数中set