当前位置：首页 > 专题 >

《大数据分析》专题

使用熊猫的“大数据”工作流[已关闭]
在学习熊猫的过程中，我已经尝试了好几个月来找出这个问题的答案。我在日常工作中使用SAS，这是非常好的，因为它提供了非核心支持。然而，SAS作为一个软件是可怕的，原因还有很多。有一天，我希望用python和熊猫取代SAS，但我目前缺乏大型数据集的核心外工作流。我说的不是需要分布式网络的“大数据”，而是文件太大，无法放入内存，但又小到足以放入硬盘。我的第一个想法是使用在磁盘上保存大型数据集，只将我
使用Sqoop将大型机数据摄取到Hadoop中
我发现SQOOP1.4.6可以连接到大型机，它可以从大型机PDS中提取数据，并将其放入hdfs/hive/hbase或accolumo中。我想知道它是支持打包的十进制数据类型还是只支持简单的数据类型？有人能帮我了解一下SQOOP1.4.6支持什么大型机文件格式吗？提前致谢参考https://sqoop.apache.org/docs/1.4.6/sqoopuserguide.html
Cucumber：场景大纲-在运行时访问数据表
在我们的cucumber特性文件中，我们使用了场景大纲，在运行脚本之前，我们需要在运行时填充数据。基于数据文件中传递的城市路线，我们使用一个API创建PNR，该API返回给我一个实际的PNR。创建的PNR值需要存储在场景数据表中。如果我们有场景，我们可以使用DataTable函数访问函数内部的值。我们有任何类与场景大纲数据表交互吗例如。请让我知道如果现有的类或替代方案来解决这个问题。
处理大型数据对象，应该释放CLOB吗？
我使用Oracle数据库和驱动程序，我使用从ResultSet获取Clob，然后在方法中将其转换为String：
不同大小数据帧的合并和重复值
我需要合并两个不同大小的数据帧。较大的一个()有一列有几个重复的值()，较短的一个()有列，但其值不重复。df2还有一个ID列。我需要在中使用中的ID的新列，根据中的重复值重复。下面的例子可能会让它更清楚。 .
2022/08/22 宁德时代大数据开发（已OC）
2022/08/13 一面时长15min 感觉啥也没问自我介绍项目主要是大数据相关，你对算法方面了解多少实习在做什么想做偏算法还是偏数据的工作如果其他部门提的取数需求做不了你会怎么做面试官介绍他们的电池时序数据反问：业务部门多少人，入职后做的工作偏算法还是数据 ------------------------------------------- 2022/08/13 面试刚结
2022/09/21 吉利汽车大数据开发（已OC）
一面　30min 两个面试官　一个问技术　一个问综合自我介绍比赛经历比赛中Mapreduce写了哪几部分代码实习项目说一下实习任务分工 Kafka生产者消费者说一下有什么主要的参数一个SQL题目，要求根据经度纬度输出地点场景题写一个spark代码反问－－－－－－－－－－－－－－－－－－－ 2022/09/22　电话沟通意向　已拒绝　工作地点在宁波 #吉利控股##我的秋招记录#
上海银行总行科技大数据岗笔试
lz投递的是数据开发工程师方向 1. 笔试共两个半小时，分为两个部分 2. 第一部分是行测，共60道题目，具体题型分布不太记得了，限时60min 3. 第二部分是专业笔试，限时90min （1）单选 23题（2）多选5题（3）判断7题单选、多选、判断主要考察数据库、Hadoop相关知识（4）编程填空题18题都是SQL题，难度适中#上海银行#
2022/10/08 云骥智行大数据开发一面
一面 30min 自我介绍项目经历实习项目介绍一下具体任务调度用的什么 ETL任务血缘怎么设置实习公司数仓主题怎么划分你所在部门构成多少人阿里云框架各部分负责什么功能大数据国赛各部分做什么任务 Map Reduce过程介绍一下 count distinct的Map Reduce过程说一下有几个map和reduce 实现count distinct功能你会怎么考虑优化一道SQL
【2023届】中国重汽-大数据技术与应用
9.26投递——12.13面试面试时间：6分钟面试官：2人自我介绍论文专利情况有没有法律、财务方面的学习（？？？我不懂）介绍一下毕业设计高考分数、生源地在校期间获奖情况是否参加学生会是否接受地点、岗位调剂
快手商业化大数据研发实习面经
一面：2023.2.7 30min 自我介绍为什么要换实习了不了解数仓知识 sql题，各城市观看量前10的用户，能不能保证每次刷数的结果一致 sql题，连续登陆数据倾斜啥情况，怎么解决了解即时查询组件吗？CK ES Durid之类？ hive2ck有啥要注意的反问二面：2023.2.8 40min 自我介绍为啥要换实习之前实习有没有什么遇到难点，怎么解决的你觉得什么样的数仓是好数
百度-自动驾驶部-大数据开发面经
2023春招找实习的同学跟我分享了他的面试经历，在这里我进行了一些总结梳理，然后发出来供大家学习 1.自我介绍 2.八股文你写的这个实时数仓，维表是怎么更新的 flink了解吧，flink里面断流怎么处理 flink的exactly-once是怎么实现的 checkpoint的时候barrier什么时候发送 checkpoint产生了很多快照，怎么进行处理呢 sparkstreaming和str
字节大数据开发一面SQL题【2023/03/22】
问题描述：有一张tmp表，字段分别是开始时间start_date，结束时间end_date，欠费金额amount 输出描述：用户每天需要还的金额分析：根据题目描述的输入输出，很容易知道思路哈，就是想要把从开始时间到结束时间的每一条数据都拆开存储，然后根据日期去聚合就可以得到每天的欠费金额了，所以难点就在于如何根据一个起始时间来进行拆分呢？一行转多行，让我们可以想到的就是使用炸裂函数expl
3.22 大数据开发美团实习一面（凉经）
#牛客解忧铺##牛客在线求职答疑中心##你觉得今年春招回暖了吗##面经##大数据开发# 附加信息：211本+985硕（非计算机），笔试4出头的分数，面了90分钟，面试官人超好，奈何本人过菜 1、部门介绍 2、自我介绍 3、项目介绍，在项目中承担什么角色，如何完成工作大数据相关： 4、对大数据开发的理解 5、知道什么常用的大数据开发组件 6、谈谈MapReduce的原理 7、谈谈shuffle的实
3.23 美团大数据开发暑期实习一面
大约45min 自我介绍项目介绍编程题：顺时针打印矩阵（实际上变成了按顺序打印矩阵）一个数的二进制有几个0 SQL：每个学生合格了的成绩的平均分（HAVING）总成绩第三名的学生 SHELL：数一个文件出现了几个＂beijing＂智力题： 3l和5l的杯子，量出4l水操作系统：死锁是什么、怎么解决计网：浏览器访问一个网站，有哪些过程数据结构：了解哪些数据结构 hashm

首页

84

85

86

87

88

89

90

91

92

尾页

最新发布

某一面虾皮 NLP 一面美的寒假实习llm面经蚂蚁大模型算法面经，say something I don't know 百度 llm算法一面凉经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

前端 - vu3+vite 使用vue-pdf-embed预览pdf，组件渲染空白，页面无报错，是什么原因？java - @Async("asyncTaskExecutor") 没有并发处理问题？python - 如何查看：pypi中想要看是否哪些包最受欢迎的库？前端 - 可以安装在内网使用的安卓模拟器？前端调用API之后更新状态逻辑：是触发store的方法进行拉取更新是吗，还是说直接修改store进行更新？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

objection Fqutils Gitee dcm4che pg_pathman AndroidJUnit4 reek WebJars

文档资料

小米数据处理和分析服务（EMR）使用指南 iOS 核心动画高级技巧蘋果 Swift 官方教學 v2.0 Effective C++ 中文版跟我学 Spring MVC