当前位置：首页 > 专题 >

《大数据》专题

Spring Batch从Rest web服务读取大量数据
例如：如果我在01012020和01012021之间调用它，我将获得8000万个数据。 PS：web服务按一天的分页方式工作，也就是说，如果我想检索01/09/2020到07/09/2020之间的数据，我必须调用它几次（01/09-02/09之间，然后02/09-03/09之间，依此类推，直到06/09-07/09）在这种情况下，如果数据很大，我的问题是堆空间内存。
弹性搜索河无法处理大量数据
我有一个问题，在elasticsearch与mongob建立河流。如果日期的大小在一百万以内，我可以从mongob导入数据。但是当数据很大1000万或更大时，河流无法索引来自mongob集合的所有记录。我在日志中看到这个错误通常说river stale是错误的几次。此外，我在mongodb设置中的oplog大小为1024MB。
大熊猫。数据帧输出表格式配置
在哪里可以配置Jupyter，使DataFrame对象在默认情况下显示为带边框的完整表？现在看起来是这样的：
CPU百分比大于100的Docker统计数据
我通过从Jmeter发送请求来强调容器，然后通过docker stats命令监视容器的cpu使用情况，该命令给出的值大于100%。我不明白为什么即使只给容器分配一个核心，它也会给出超过100%的！。你知道原因吗？这个cpu值是否表示除了容器之外的某些系统进程的cpu使用情况？提前感谢你的帮助。 docker信息结果：集装箱：2运行：1暂停：0停止：1图像：10服务器版本：17.06.0-CE存
为自定义数据源设置光池大小
我想为我的自定义数据源更改光池大小，我使用的是Spring boot 2版本。我可以设置数据源url，数据源密码等。我将值写入application.properties文件。之后，我用environment.getproperty读取这些值并设置dataSource，但是我不知道池大小的相同过程:(
带字符串验证的ByteBuf数据包大小？
每个包作为，操作码用于知道它是什么类型的包，例如操作码2是登录包。所以登录包有一个操作码和两个字符串。例如，用户名最大长度为18，密码最大长度为12，因此登录数据包的大小必须为31。但是当用户名小于18时会发生什么呢？如果我的密码是10，用户名是4，我的数据包大小将是15，根据系统检查将是非法的。它在做什么？应该如何做？
优化两个大型pyspark数据帧的连接
我有两个包含GB数据的大型pyspark数据框df1和df2。第一个数据框中的列是id1，col1。第二个数据框中的列是id2，col2。数据框的行数相等。id1和id2的所有值都是唯一的。id1的所有值也正好对应一个值id2。因为。前几个条目与df1和df2区域相同，如下所示 DF1： df2: 所以我需要连接键 id1 和 id2 上的两个数据帧。df = df1.join（df2， df1
将大型数据文件导入熊猫[副本]
我有一个1.5GB.dat文件需要作为pandas数据帧导入，我遇到了内存问题(8GB RAM）。如何将dat文件分解成块来执行分析？
如何在Talend大数据工作中迭代tHiveInput？
有没有一种方法可以在talend大数据工作中迭代一个TiveInput？
未使用RSA加密加密的大型数据
我的问题是：我的加密代码在64个字符以下运行良好。但如果超过64个字符，我会得到以下错误加密代码密钥生成代码我的问题是：可以用512位密钥加密大文本吗？我的密码有错吗？注意：如果有人想要完整的代码，我会稍后更新。
并行化大数据集的GPflow 2.0 GP回归
我正试图用大约8000个观察值和一个4个3/2协方差函数的复合内核在2D空间1D时间上运行一个GP回归——这超过了一个内核的处理能力。如果能够将 GPR 计算分布在多个节点上，而不必求助于变分 GP，那就太好了。这个github问题解释了如何在GPflow 1.0中执行多线程处理，但我并不是在寻找一种并行化许多调用的方法。相反，我想在大型数据集上进行GPR，这意味着反转大于单个核心可以处理的协
星环科技-大数据产品经理-面经
已oc。星环科技-大数据产品经理-面经一面：3.17日下午2:00 写在前面----- 面试官是一位很有亲和力的小姐姐，但也是我面试以来唯一一位没有开摄像头的面试官。自我介绍后，下面是一些提问： 1.简历深挖，主要讲了我在两个项目中负责的部分，想看看我作为主导解决了什么问题，以及相应能力。 2.有没有用过数据安全相关的产品。（我回答我们日常生活中大多接触的都是to C端产品，to B端除了企
字节大数据开发实习一二HR面
5/5一面 5/14 二面 5/18 hr面 5/19 OC 一面(1h10min) 1.自我介绍一下 2.介绍一下你的项目 2.1 Mysql全量数据规模 2.2 既然Mysql能存储，为什么要导入到hive中 3.说一下MySQL的ACID特性 4.脏读和幻读分别是什么含义 5.spark持久化的级别和作用 6.spark任务出现数据倾斜有哪些方法解决 7.hive没办法创建分区怎么理
荣耀大数据开发岗-面试官有病
大概是今年五月初面试了荣耀大数据的Java开发港，面试官全程基本什么都没有问。也没有问一些八股文的问题，也没有问算法题。就是轻蔑地看了一眼我的简历，然后问你的项目是自己做的，还是根据别人的来做的，然后直接说你做的这个项目怎么这么简单，因为我还有一个机器学习的项目，然后他就随便问了项目做什么的。最离谱的是他说你有机器学习的经历，那么我推荐你去客户端。总之全程什么技术问题都没有问你，也没有问项目
滴滴秋储大数据架构二面面经
面试官全程微笑，体验感极好。上来大佬先来了个礼貌式微笑。然后自我介绍。问了问我的研究方向（多模态）聊了聊大数据相关的技术？如果来大数据部门想做什么？问了一下我做的数据挖掘的比赛？然后30min一道题。二叉树的z字遍历和阻塞队列二选一问了一下时间复杂度和空间复杂度。反问环节：部门培养人的计划是什么？您是做什么的？整体感觉很流畅，体验很好，期待过 ps：滴滴23秋储一共几面？

首页

34

35

36

37

38

39

40

41

42

尾页

最新发布

长沙银行货拉拉应用运维实习拼多多面试华为运营经理面经（我跑了）我的面试经历

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

echarts - 如何用echart做一个有厚度的、正面视图的饼图呢？前端 - 求助，如何解决vite.config.js代理配置失效问题?前端 - Ant Design Vue Tree组件拖拽功能中dropToGap和dropPosition的含义是什么？php实现图片序列合成视频？javascript - 为什么节流函数中的定时器ID没有按预期变化？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Script.NET Deis MultiTablesView MiniExcel JasperServer HeyUI Admin jQuery slimscroll maple-bbs

文档资料

Markdown Preview Enhanced 中文文档 Neo4j 中文使用手册以及例子笨办法学 Prolog Java.io 入门教程 Python 正则表达式操作指南