当前位置：首页 > 专题 >

《大数据》专题

将大型数据集加载到Pandas Python中
我想从InstaCart https://www.InstaCart.com/datasets/grocery-shopping-2017加载大型.csv（3.4百万行，20.6万用户）开源数据集基本上，我在将orders.csv加载到Pandas数据帧中时遇到了麻烦。我想学习将大文件加载到Pandas/Python中的最佳实践。
Rails数据表ajax json 414请求URI太大
因此，我尝试了Railscasts教程，以及ajax-datatables-rails gem的教程。我正在从数据库创建客户端列表--而不是用户。我相信我已经将其缩小到这样一个事实，即当通过Datatables使用方法时，我收到一个带有“Request-URI太大”的414。当我使用方法时，我只是获得除之外的所有属性的空值，这是有道理的，因为POST json用于创建客户端。任何帮助都非常感谢！
用于大型数据集的Numpy[已关闭]
为了生成某些情况下的概率密度函数，可能需要考虑100万次观测。当我使用numpy数组时，遇到了大小限制32。是不是太少了？在这种情况下，我们如何存储32个以上的元素，而不将元素分布到不同的列中，或者在数组中分布数组？
查找包含最大数据的重复行
我有一个这样的csv文件：我必须按“姓名”和“出生日期”（可能与其他列一起）查找唯一的行，但必须按最大日期查找。因此，我必须获得如下csv文件：怎么做？我没有任何想法。。
Spark 2.2 Join在大型数据集中失败
当我试图使用Spark DataFrame API将一个巨大的数据集（654 GB）与一个较小的数据集（535 MB）连接（内部）时，我目前面临着一些问题。我正在使用broadcast（）函数向worker节点广播较小的数据集。我无法在这两个数据集之间进行连接。以下是我得到的错误示例：在将大数据集与小数据集连接之前，我尝试将第一个数据集的10000条记录与整个小数据集（535 MB）连接起来
如何从hadoop向大型机导出数据
是否有一种方法可以使用SQOOP将数据从hadoop导出到大型机。我对大型机很陌生。我明白我们可以在从大型机到Hadoop的数据中进行sqoop。我浏览了一下sqoop文档，但没有提到任何关于导出的内容感谢你的帮助。
如何将数据从大型机拉到Hadoop
我在主机里有文件。我希望将这些数据推送到Hadoop(HDFS)/hive。我可以将Sqoop用于大型机DB2数据库，并将其导入配置单元，但对于文件（如、等）呢
插入最大日期（独立于数据库）
在我的本地设置中，我使用一个简单的H2数据库。“托管”解决方案将有另一个（类似但不相同）数据库。我需要将最大可能的日期插入到DateTime列中。我试图用但是，这会导致列中出现-169104626-12-11 20:08:15.9999999。关于如何插入最长可能日期，是否有可靠的选项？
如何用大型json数据填充RecyclerView[duplicate]
我有一个返回JSON对象的REST方法，JSON文件大小差不多有7MB，有差不多4600个JSON对象。我无法一次将整个数据解析到recyclerView中，因为这会导致OutOfMemory异常。我在这里面临的问题是recyclerview显示的ROLL_NUM、CURRENT_CLASS、STUDENT_NAME的值为空示例JSON响应：{“RESTRESULT”：[{“”ROLL_NUM
Kafka Streams:SerializationException:LongDeserializer接收的数据大小不是8
我有一个小程序可以用阿帕奇Kafka来计算颜色的数量创建主题，生产者/消费者开始使用终端：我在终端中提供了以下输入：我在消费者终端收到错误: 这里有什么问题？我做了简短的研究，发现了其他人提出的类似问题，但这些解决方案似乎对我不起作用。
codename one中有大量数据，内存不足
我的Codename One应用程序下载了大约16000条数据记录(每条记录中大约有10个字段)。在我的Android手机(OS6.0，RAM 2GB)上，它能够加载8000到9000条记录，但随后显示内存不足错误。从跟踪来看，它似乎用完了分配给应用程序的堆内存。有什么建议吗？请问处理如此大量数据的理想方法是什么？这是日志文件
顺丰-大数据挖掘与分析面经
顺丰-大数据挖掘与分析（2021秋招）顺丰一面： 1.深挖实习，指标体系如何建立，各项指标的权重如何确定 2.逻辑回归算法的原理 3.谈谈对ABtest的认识 4.sql排序窗口函数的区别顺丰二面： 1.深挖实习，预测为什么选用随机森林算法，如何调参 2.论文项目，简单介绍 3.了解哪些机器学习算法 4.反问顺丰hr面 1.实习中遇到的困难，如何解决 2.过往经历中，你认为最困难的问题，你是
百度提前批大数据二面面经
1、spark shuffle过程，越具体越好，细化到组件，map task以及reduce task具体过程 2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件，那mergesort shuffle呢 3、reduce task 如何知道哪些map task完成了，又是怎么拉取的 4、spark 写文件流程？commit流程？ 5、spar
滴滴大数据日常实习（一二面）
问问有没有大佬们大数据开发的实习经历啊，我怎么感觉隔着天天写sql 老是遇到这种实习岗，一天全面试完，急招岗，没什么参考价值，应该oc了，因为我不想立马去，发of要排序吧一面（9.6 上午 50min） 1.自我介绍 2.问实习经历问了很久 3..五道sql题 4.数仓理论二面（9.6 晚上 1小时） 1.自我介绍 2.问实习经历 3.sql题 4.mapreduce的流程及其shuffle
2022/09/07 荣耀大数据开发二面
一面30min 自我介绍选一个最熟悉的结构说一下原理特点怎么使用 hive数据倾斜内部表外部表文件存储格式行转列列转行 sql题目项目中有用hive解析json数据吗实习在做什么介绍实习项目实习公司数据仓库怎么分主题的业务需求是你自己一直在沟通吗想做数仓还是平台你觉得对业务了解的怎么样 base想南京还是深圳二面介绍实习在干嘛实习项目怎么做的项目几个人做你

首页

28

29

30

31

32

33

34

35

36

尾页

最新发布

长沙银行货拉拉应用运维实习拼多多面试华为运营经理面经（我跑了）我的面试经历

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

echarts - 如何用echart做一个有厚度的、正面视图的饼图呢？前端 - 求助，如何解决vite.config.js代理配置失效问题?前端 - Ant Design Vue Tree组件拖拽功能中dropToGap和dropPosition的含义是什么？php实现图片序列合成视频？javascript - 为什么节流函数中的定时器ID没有按预期变化？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Script.NET Deis MultiTablesView MiniExcel JasperServer HeyUI Admin jQuery slimscroll maple-bbs

文档资料

Serverless 应用开发指南 Vim 入门教程 AngularJS 中文教程下一代 Web 框架 Koa 快学 Scala 读书笔记