当前位置：首页 > 专题 >

《大数据开发实习》专题

如何将*大*数据块导入PostgreSQL？
问题内容：我有一个看起来像这样的数据结构：我在模型表中有超过500万行，我需要在两个外键表的每一个中插入约5000万行。我的文件看起来像这样：它们每个约为 7 Gb 。问题是，当我这样做时，大约需要 12个小时才能在AMD Turion64x2 CPU上导入约400万行。操作系统是Gentoo〜amd64，PostgreSQL是版本8.4，在本地编译。数据目录是一个绑定安装，位于我
pandas中的大型持久数据帧
作为一个长期的SAS用户，我正在探索切换到python和pandas。然而，在今天运行一些测试时，我很惊讶python在尝试一个128MB的csv文件时内存耗尽。它大约有200,000行和200列，大部分是数字数据。使用SAS，我可以将csv文件导入SAS数据集，并且它可以和我的硬盘一样大。中有类似的内容吗？我经常处理大文件，没有访问分布式计算网络的权限。
Redis复制大数据到新从机
原因是：这是在主服务器上设置的，由于最大内存不可用，它会中断新从服务器的复制。我看到这个问题Redis复制和客户机输出缓冲区限制，类似的问题正在讨论，但我有一个更广泛的问题范围。我们不能用很多内存。那么，在这种情况下，有什么可能的方法来进行复制，以防止主服务器上的任何失败（WRT.内存和延迟影响）
用python输入大约8MB的数据
第一行输入包含一个表示测试用例数量的整数T。每个测试用例的第一行包含三个空格分隔的整数-N、x和M，第二行包含N个空格分隔的整数A1、A2、…、an。我使用这种格式来扫描值，但是由于I/O文件大约是8 mb，所以在SPOJ上会给出时间限制。有没有一个能为我提供最快的方式扫描I/P
将超大型数据集导入Neo4j
我有一个庞大的CA的csv数据集。7GB，它有不同类型的列：string和Float。那么将其导入到Neo4J中的超快解决方案是什么呢？我也尝试使用neo4j-admin导入工具，但每次我都被以下错误所困扰： Invoke-Neo4jAdmin:c:\users\shafigh.neo4jdesktop\neo4jdatabases\database-417e361b-f273-496c-983
微服务间共享庞大数据
我正在设计一个微服务架构中的评审分析平台。应用程序如下所示； null null 问题在于，验证服务需要获取site-a的所有评论，应用验证规则并生成错误（如果有的话）。我知道共享数据库模式和实体打破了微服务体系结构。一个可能的解决方案是每当验证服务需要对站点进行审查时，它就会请求网关，网关会将请求重定向到审查服务并采取响应。这种方法的两个可能缺点是验证服务是否知道网关？是否会带来依赖？
如何用H2O处理大数据集
我正在尝试用H2O（3.14）训练机器学习模型。我的数据集大小是4Gb，我的计算机RAM是2Gb，带有2G交换，JDK 1.8。参考本文，H2O可以使用2Gb RAM处理大型数据集。关于大数据和GC的说明：当Java堆太满时，我们会进行用户模式的磁盘交换，即，您使用的大数据比物理DRAM多。我们不会因GC死亡螺旋而死亡，但我们会降级到核心外的速度。我们将以磁盘允许的速度运行。我个人测试过将12G
使用sqlplus检索大型clob数据
null 由于oracle clob字段可以包含4GB(max)的数据，是否有使用SQLPlus获得完整数据块的正确方法？我可以把它作为文件下载吗？我希望问题是清楚的。我更喜欢在不向数据库注入PL/SQL过程的情况下做到这一点。
Java夸大原始数据的异常
我试图用java解码JWT负载，但是这个负载被压缩/压缩了 JAVAutil。拉链DataFormatException:标头检查不正确其他一些使用其他编程语言的人能够用这个解决这个问题，他们想知道我将如何用java实现这一点？
大数据（MapReduce）面试题及答案
介绍下MapReduce ● 1.1 MapReduce定义 ○ MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 ○ MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运行在一个 Hadoop 集群上。 MapReduce优缺点 ● 1.2 MapReduce优缺点 ○ 1.2.
大数据（Yarn）面试题及答案
介绍下YARN ● Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 YARN有几个模块 ● Yarn架构 ○ ResourceManager（RM）： ○ NodeManager（NM）： ○ ApplicationMaster（AM）： ○ Container： YARN工作
字节大数据岗一面-面经
字节面经项目的数据来源和的数据的规模 Spark Shuffle spark的宽窄依赖数据倾斜问题（★★★★★）产生数据倾斜的原因遇到过的数据倾斜的实际情况数据倾斜的解决办法介绍一下hadoop的NameNode NameNode高可用架构 NameNode主节点宕机，之后的选取机制 Zookeeper的选取机制 NameNode中的元数据是否会丢失？（★★★★★）怎么保证元数据不丢
茄子快传大数据一面挂
1.mapreduce的shuffle过程。 2.海量节点的情况下，NameNode如何扩展用多台NameNode保存元数据。 3.多个NameNode，其中一个NameNode挂了，其它NameNode如何上线。 4.海量的（userid,pageid）二元组数据，内存小的情况，用java或者sql计算每个pageid的userid top10的方法？ Java：数据切块并按pageid分区，每
腾讯TEG大数据一面面经
写面经攒人品，同时也是对自己的实习面试的一个记录吧 1.介绍项目，因为是密码学项目，面试官可能不是很了解，但是抠得很细，一直问到他大概明白是做了什么为止 2.智能指针 3.协程 4.Java线程池 5.Redis布隆过滤器 6.数据结构中序遍历 7.有没有在C++中引用过第三方包 8.手撕算法:给一个数字串，相邻两个字符相加为10可以消去，问最终字符串长度 9.介绍了一下所接触过的其他加密算法面
美团大数据基架一面20230407
1小时，全程 LSM tree 深挖 LSM-tree 存储引擎和 Raft 的关系 LSM-tree 原理和特点为什么要追加写 LSM-tree 的工业实现 LSM-tree 的合并方式（合并超出阈值的部分还是全部？优缺点 Bloom filter 的实现 Bloom filter 如何持久化缓存的索引怎么做缓存淘汰缓存的索引一个 SSTable 对应一个 map 和用一个全局 map 的

首页

95

96

97

98

99

100

尾页

最新发布

10.19陕西移动金种子大数据开发一面得物测开一面面经腾讯云智系统测试得物测试开发小米测试

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

网络 - 为什么一些路由器可以让管理登录地址是一个域名？使用live-pusher和live-player标签，微信小程序如何实现视频通话接听前的功能？go没执行起来？javascript - H5页面怎么判断当前iphone设备的具体型号，想区分是否是带灵动岛14pro及以上的机型？想要PySide写的桌面应用程序进程间同步有什么已经公认好的设计方案吗？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Sooolink Streamripper CUPS-PDF cash-cli testem ManyDesigns Portofino Docker-Registry Smack_XMPP

文档资料

Numpy 入门教程 HaloJS 中文文档 Spring Boot 入门教程 rCore-Tutorial 教程 v3 Beautiful Soup 4.4.0 中文文档