当前位置：首页 > 专题 >

《大数据》专题

大数据增量PCA
问题内容：我只是尝试使用sklearn.decomposition中的IncrementalPCA，但它像以前的PCA和RandomizedPCA一样引发了MemoryError。我的问题是，我要加载的矩阵太大，无法放入RAM。现在，它以形状〜（1000000，1000）的数据集形式存储在hdf5数据库中，因此我有1.000.000.000 float32值。我以为IncrementalPCA可
大数据集的TFIDF
问题内容：我有一个大约有800万条新闻文章的语料库，我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量，但是我相信它不能用于如此庞大的数据集，因为它首先将输入矩阵加载到内存中，这是一个昂贵的过程。谁知道，对于大型数据集，提取TFIDF向量的最佳方法是什么？问题答案： Gensim具有高效的tf-idf模型，不需要一次将所有内容存
大数据多处理
问题内容：我用来并行化一些繁重的计算。目标函数返回大量数据（庞大的列表）。我的RAM用完了。如果不使用，我只需将生成的元素依次计算出来，就将目标函数更改为生成器。我了解多处理不支持生成器- 它等待整个输出并立即返回，对吗？没有屈服。有没有一种方法可以使工作人员在数据可用时立即产生数据，而无需在RAM中构造整个结果数组？简单的例子：这是Python 2.7。问题答案：这听起来像是队列
1.5.3.2.16 大数据分析
SuperMap iClient for Leaflet 对接了 SuperMap iServer 的分布式分析服务，为用户提供大数据分析功能，主要包括：密度分析点聚合分析单对象空间查询分析区域汇总分析矢量裁剪分析
编写大型数据
由于网络的原因，如何有效的写大数据在异步框架是一个特殊的问题。因为写操作是非阻塞的，即便是在数据不能写出时,只是通知 ChannelFuture 完成了。当这种情况发生时,你必须停止写操作或面临内存耗尽的风险。所以写时,会产生大量的数据,我们需要做好准备来处理的这种情况下的缓慢的连接远端导致延迟释放内存的问题你。作为一个例子让我们考虑写一个文件的内容到网络。在我们的讨论传输(见4.2节)时，我们
10.24京东大数据
1.自我介绍 2.大数据项目battle 3.对于窗口函数的了解有什么，什么场景，怎么用 4.文本拼接函数是什么 5.hbase负载均衡怎么实现 6.cv项目battle 不同模型的区别网络+部署 7.反问京东商城核心检索业务和leader讨论面试结果，一周内hr会联系
soul大数据面经
1.自我介绍 2.你的优势是什么 3.对数仓怎么看 4.sql，有id，score。怎么实现按score排序并且要排名，不能使用开窗函数。
tplink大数据开发
6.27一面 20min 问简历，介绍项目提到的各种模型，做了什么优化有没有spark实践的经历介绍一下hadoop 了解哪些机器学习算法 xgboost和随机森林的区别有用Java做过项目吗（无...）反问 6.28二面 35min 简历项目一个一个详细讲 transformer编码器解码器区别 transformer位置编码的情况 spark实践经历反问
Java：表示大量数据数组
对于工作计划应用程序，我需要为w周（=7w天）生成许多可能的员工计划。员工时间表由计划期内每天的班次（早班、晚班、夜班、Rest日）列表组成。应用程序是用Java编程的。此时，我代表员工时间表如下：移位是表示分配移位的枚举，定义为：我在枚举声明和方法中也有一些shift属性来比较属性，但我认为这与此无关。每个员工都有一份他可能的时间表列表：我的问题是，我实际上有50名员工，我想为每个员工
兴业数金大数据一面
面试官都没开摄像头，然后让我开了。两个面试官一男一女 1. 先讲讲对索引的理解和概念。 2.出了一道sql题学生成绩表：学号，姓名，性别，班级，分数按照分数倒叙，以班级分组，姓名排序如果分数相同并列。 3. 删除表中学号为10010的数据： 4.讲讲join 5.python 中的闭包理解 6.split 和 join理解 7.给一个txt文件找出所有大写字母的个数口述pytho
联通数科大数据开发
一面（11/3）自我介绍拷打项目然后问了一个Flink反压的问题二面（11/10）自我介绍拷打项目问了前端展示大量数据，如何考虑？（可能大佬就是前端的）问了用了哪些数据库？问了Kafka 和 Flume 的应用场景？（可能时间比较紧张，所以问的比较急，二面没有遇到反问环节了）
Redis：显示数据库大小/密钥大小
问题内容：我的redis实例似乎正在变得非常大，我想找出我那里的多个数据库中的哪个消耗了多少内存。Redis的命令仅向我显示了每个数据库的总大小和密钥数，这并没有给我带来太多的了解…因此，在监视Redis服务器时为我提供更多信息的任何工具/想法都将受到赞赏。 Redis文档没有显示任何可以返回某些键消耗的内存的命令，因此我想如果有错误代码会为Redis写很多“废纸t”，这可能很难找到… 问题答案
浙江大华大数据提前批面经
中午两点打过来，我说暂时没空约了晚上八点面试时间控的很准，也没有反问就结束了一面15min [项目]- [ ] Linux起一个服务端的过程 -[ ] 使用哪种epoll工作方式 - [ ] 水平触发与边缘触发编写时要注意些什么 - [ ] 多进程如何通信 - [ ] fork如何判断父子进程 - [ ] 虚函数的作用 - [ ] 虚函数的使用场景 - [ ] 了解的C++智能指针 - [ ]
大华C++一面（大数据研究院）10.23
面试官介绍了一下部门主要业务（数据挖掘、分布式存储、机器学习、虚拟化）动态多态的实现原理虚函数表是属于类的还是类对象的静态成员函数可以是虚函数吗为什么析构函数默认不是虚函数内存对齐的作用 vector和map用迭代器一边遍历容器一边删除元素，迭代器会失效吗 map是有序的还是无序的，底层实现是什么 map为什么底层实现是红黑树而不是AVL IP层有MTU报文分段策略，那TCP是不是可以不
整数太大
问题内容：嗨，我很难理解为什么这不起作用莫尔斯电码只是一串数字。问题是它说Integer number太大：4545454545，但是我确定Long可以更长。问题答案：您需要使用或将其限定为。默认情况下，是文字，超出的范围。建议使用大写字母以避免混淆，因为和看起来很相似你可以做：要么根据JLS 3.10.1 ：如果整数文字以ASCII字母L或l（ell）为后缀，则其类型为l

首页

1

2

3

4

5

6

尾页

最新发布

长沙银行货拉拉应用运维实习拼多多面试华为运营经理面经（我跑了）我的面试经历

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

echarts - 如何用echart做一个有厚度的、正面视图的饼图呢？前端 - 求助，如何解决vite.config.js代理配置失效问题?前端 - Ant Design Vue Tree组件拖拽功能中dropToGap和dropPosition的含义是什么？php实现图片序列合成视频？javascript - 为什么节流函数中的定时器ID没有按预期变化？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Script.NET Deis MultiTablesView MiniExcel JasperServer HeyUI Admin jQuery slimscroll maple-bbs

文档资料

Serverless 应用开发指南 Vim 入门教程 AngularJS 中文教程下一代 Web 框架 Koa 快学 Scala 读书笔记