当前位置：首页 > 专题 >

《大数据求职》专题

Android数据库大小不会减少HTC Thunderbolt
问题内容：更新：db-wal文件太大了。是什么原因，如何限制sqlite日志文件的大小？我正在使用SQLiteOpenHelper。当发生onUpgrade时，我将删除我的应用程序中存在的每个表。当我使用设置应用程序查看应用程序数据大小时，在机器人上，您可以看到数据大小会减小。但是使用HTC Thunderbolt时，数据大小不会减少。更糟糕的是，当您再次开始使用我的应用程序时，Thunder
awk 强大地处理表格数据（CSV等）
本文向大家介绍awk 强大地处理表格数据（CSV等），包括了awk 强大地处理表格数据（CSV等）的使用技巧和注意事项，需要的朋友参考一下示例只要输入的格式正确，用awk处理表格数据非常容易。大多数产生表格数据的软件都使用该格式系列的特定功能，并且处理表格数据的awk程序通常特定于特定软件所产生的数据。如果需要更通用或更健壮的解决方案，则大多数流行语言都提供了包含表格式数据中许多功能的库：第
将大型数据集加载到Pandas Python中
我想从InstaCart https://www.InstaCart.com/datasets/grocery-shopping-2017加载大型.csv（3.4百万行，20.6万用户）开源数据集基本上，我在将orders.csv加载到Pandas数据帧中时遇到了麻烦。我想学习将大文件加载到Pandas/Python中的最佳实践。
用于大型数据集的Numpy[已关闭]
为了生成某些情况下的概率密度函数，可能需要考虑100万次观测。当我使用numpy数组时，遇到了大小限制32。是不是太少了？在这种情况下，我们如何存储32个以上的元素，而不将元素分布到不同的列中，或者在数组中分布数组？
查找包含最大数据的重复行
我有一个这样的csv文件：我必须按“姓名”和“出生日期”（可能与其他列一起）查找唯一的行，但必须按最大日期查找。因此，我必须获得如下csv文件：怎么做？我没有任何想法。。
Spark 2.2 Join在大型数据集中失败
当我试图使用Spark DataFrame API将一个巨大的数据集（654 GB）与一个较小的数据集（535 MB）连接（内部）时，我目前面临着一些问题。我正在使用broadcast（）函数向worker节点广播较小的数据集。我无法在这两个数据集之间进行连接。以下是我得到的错误示例：在将大数据集与小数据集连接之前，我尝试将第一个数据集的10000条记录与整个小数据集（535 MB）连接起来
如何从hadoop向大型机导出数据
是否有一种方法可以使用SQOOP将数据从hadoop导出到大型机。我对大型机很陌生。我明白我们可以在从大型机到Hadoop的数据中进行sqoop。我浏览了一下sqoop文档，但没有提到任何关于导出的内容感谢你的帮助。
如何将数据从大型机拉到Hadoop
我在主机里有文件。我希望将这些数据推送到Hadoop(HDFS)/hive。我可以将Sqoop用于大型机DB2数据库，并将其导入配置单元，但对于文件（如、等）呢
插入最大日期（独立于数据库）
在我的本地设置中，我使用一个简单的H2数据库。“托管”解决方案将有另一个（类似但不相同）数据库。我需要将最大可能的日期插入到DateTime列中。我试图用但是，这会导致列中出现-169104626-12-11 20:08:15.9999999。关于如何插入最长可能日期，是否有可靠的选项？
如何用大型json数据填充RecyclerView[duplicate]
我有一个返回JSON对象的REST方法，JSON文件大小差不多有7MB，有差不多4600个JSON对象。我无法一次将整个数据解析到recyclerView中，因为这会导致OutOfMemory异常。我在这里面临的问题是recyclerview显示的ROLL_NUM、CURRENT_CLASS、STUDENT_NAME的值为空示例JSON响应：{“RESTRESULT”：[{“”ROLL_NUM
Kafka Streams:SerializationException:LongDeserializer接收的数据大小不是8
我有一个小程序可以用阿帕奇Kafka来计算颜色的数量创建主题，生产者/消费者开始使用终端：我在终端中提供了以下输入：我在消费者终端收到错误: 这里有什么问题？我做了简短的研究，发现了其他人提出的类似问题，但这些解决方案似乎对我不起作用。
codename one中有大量数据，内存不足
我的Codename One应用程序下载了大约16000条数据记录(每条记录中大约有10个字段)。在我的Android手机(OS6.0，RAM 2GB)上，它能够加载8000到9000条记录，但随后显示内存不足错误。从跟踪来看，它似乎用完了分配给应用程序的堆内存。有什么建议吗？请问处理如此大量数据的理想方法是什么？这是日志文件
顺丰-大数据挖掘与分析面经
顺丰-大数据挖掘与分析（2021秋招）顺丰一面： 1.深挖实习，指标体系如何建立，各项指标的权重如何确定 2.逻辑回归算法的原理 3.谈谈对ABtest的认识 4.sql排序窗口函数的区别顺丰二面： 1.深挖实习，预测为什么选用随机森林算法，如何调参 2.论文项目，简单介绍 3.了解哪些机器学习算法 4.反问顺丰hr面 1.实习中遇到的困难，如何解决 2.过往经历中，你认为最困难的问题，你是
百度提前批大数据二面面经
1、spark shuffle过程，越具体越好，细化到组件，map task以及reduce task具体过程 2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件，那mergesort shuffle呢 3、reduce task 如何知道哪些map task完成了，又是怎么拉取的 4、spark 写文件流程？commit流程？ 5、spar
滴滴大数据日常实习（一二面）
问问有没有大佬们大数据开发的实习经历啊，我怎么感觉隔着天天写sql 老是遇到这种实习岗，一天全面试完，急招岗，没什么参考价值，应该oc了，因为我不想立马去，发of要排序吧一面（9.6 上午 50min） 1.自我介绍 2.问实习经历问了很久 3..五道sql题 4.数仓理论二面（9.6 晚上 1小时） 1.自我介绍 2.问实习经历 3.sql题 4.mapreduce的流程及其shuffle

首页

32

33

34

35

36

37

38

39

40

尾页

最新发布

天翼云-技术支持一面我的面试经历 Minimax算法研发实习一面滴滴三面半凉经百度广告算法策略实习一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

视频处理 - 如何使用VLC录制RTMP实时流并分块保存文件？javascript - vue3怎么遍历一个组件中的所有项？mysql添加联合索引之后排序发生变化？python - 求助：为什么whl包在容器环境安装失败？flutter - 如何在Flutter中实现隐私合规的权限调用流程？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Apprise RubyCritic Sonar Runner how-to-npm DiskGenius cmwrap Evernote SDK for iOS Easy-Monitor

文档资料

一个月纯 JS 挑战中文指南 Windows App 应用开发教程 IIS 管理控制器帮助手册 v6.0 Twisted 与异步编程入门 Vuetify 中文文档