主要内容:1.数据仓库概述,2.数据仓库建模概述,3.维度建模理论之事实表,4.维度建模理论之维度表,5.数据仓库设计1.数据仓库概述 1.1 数据仓库概念 数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。 1.2 数据仓库核心架构 2.数据仓库建模概述 2.1 数据仓库建模的意义 数据模型就是
五月份面的了 时长50mins 1、自我介绍 2、问个人情况,实习情况 3、让挑一个在tx的时候一个能体现数据分析能力的项目仔细讲讲 4、直接出一个Case。就是B 站这边C端用户,它的浏览次数就这一个指标周环比它就出现了一些波动,然后你分析?或者说我给你一个具体的场景,就是比如说五一后,视频浏览量大盘下降,该怎么分析? 5、假如视频浏览同比涨了60%,我随便举个例子,你觉得他是好还是不好,怎么去
秋招记录 1.自我介绍 2.简历深挖 讲了一个漏斗模型的构建/一个排查问题(类似归因) 3.SQL 1.groupby /case when 打标 2.留存率 (在每日观看次数不同的前提下,我没理解如何分类,最后没写出来) 4.业务场景 1.游戏类观看大幅下降怎么分析 背了一些归因分析的模板 2.游戏视频供需关系衡量指标(这块完全不懂) 感觉不是很难,但是一边实习一边准备我有点基础忘光了
1.自我介绍 2.收入分析项目中的指标体系搭建思路 管理视角+分析视角指标拆解,维度细分 3.专员的主要工作内容是什么 外部能看到+内部业务场景细分 4.对于专员工作质量的评估 主观+客观(数量+质量) 5.对于专员的考核指标是什么呢 回答:从单价中拆出一定的比例进行激励+审核扣钱 改善:出勤、工作质量激励、绩效(以城市整体为参考线)、主观评价 6.专员的收入构成 回答:按工作量,干多少活算多少钱
#数据分析# 下午刚面完字节的产品,晚上哈啰突然通知电话面,数据分析的日常岗(感觉暑期已经招完啦) 本来通知6点面,结果面试官到7.30才打的电话,真的干等了一个半小时 先是深挖了下实习经历和项目经历,没这么给压力也没怎么提问,就是让我介绍一下,然后就是给了几个问题 1.如何估算一个城市的哈啰单车订单数量,考虑哪些指标,用什么模型 2.如何验证你的预测是否准确 3.现在有用户的全部数据,需要判断这
快手主站经营分析组 1.自我介绍 2.介绍你做的完整的ab实验项目(简历提到) 3.指标体系的搭建思路、拆分 4.有做过机器学习的项目吗 5.手写代码:求次日留存率 6.异动分析怎么分析 7.开放问题:投硬币,投几点给多少钱,你选择付多少钱投一次?如果可以无限次投,你选择付多少钱投一次呢?提示:每投一次硬币都是一次独立实验 ps:我感觉我基本上答出来了,就是不太顺畅,不太全,3.29面的,一周后官
一面 (4.7) 简历面,问了问项目和实习,聊了聊意向,对岗位的情况作介绍 二面(4.11) 问一些诸如过往经历中遇到的问题?如何解决的?项目团队中承担什么角色?怎么和团队协作的?之类的hr面会问的问题 4.17官网显示转推荐 一面的小姐姐感觉挺热情挺贴心的,面了有半小时; 二面感觉面试官全程没什么热情,问题都是走流程,面了十几分钟就结束了。#京东物流##数据分析#
4.20一面 纯实习经历问题,不过也能提炼一些泛用性高的问题 1.商业分析经历中的项目框架是怎么做的,分析思路是怎么来的,最后的产出形式是什么 2.再给你一次机会会如何改进这个框架 3.运营实习中对数据链路的监控优化过程里讲一个案例 4.21二面 纯业务问题 1.之前的实习经历学到的最重要的是什么 2.构建短视频app的核心指标体系,你会选什么指标 3.提到的点赞率这个指标从创作者角度如何解读 4
4.21面试 1.自我介绍 2.sql:分组内播放最好视频 没写对,然后面试官还亲切地给我讲题了,仿佛在上课 3.经历深挖 4.抽牌算概率 5.费米:北京有多少个数据分析师 6.又考了个概率问题 总而言之,凉透了。让我算概率的时候脑子直接卡壳…… #数据人的面试交流地#
问题内容: 我正在尝试提出一个要求区分大小写的结果的请求。 例如在我的数据库中 该请求是 但我有3行作为结果,我只想要abcdef 我试图找到一个解决方案 但是我有这个错误: 未知归类:’Latin1_General_CS_AS’{“成功”:false,“错误”:“#1273-未知归类:’Latin1_General_CS_AS’”} 谢谢 问题答案: 感谢您的帮助,我找到了不是latin1 ut
使用指南 - 疑难问题 - 数据矛盾问题 - 为什么分报告中不同维度的数据相加会大于网站概况的数据 每个报告的分析维度不同,因此去重逻辑也不同。网站概况,以及趋势报告中的数据是以整个站点为维度去重的,是了解站点整体流量和访问量的地方。 例如:访客 X 通过百度搜索进入网站后又通过直接访问进入网站,此时,“搜索引擎”报告和“直接访问”报告会各记录一个独立访客数据,但是网站概况中只会记录一个独立访客数
公司:顺丰速运集团(顺丰科技) 岗位:大数据挖掘与分析工程师 形式:视频面试 视频面试平台:赛码 初试 面试官:所在组的大数据挖掘与分析高级工程师 时长:15分钟 流程: 0、面试官自我介绍 1、自我介绍 2、看到你简历上写了很多个项目,你觉得哪个项目对你能力提升比较大?可以详细描述一下吗?包括但不限于项目背景、分析过程、最终目标、结果展示等。 3、讲一下机器学习模型和数据挖掘方法在这些项目中的具
null 假设我有100张唱片。缓存只能保存40条记录(最常用)和100条记录在磁盘文件(不在任何其他数据库中)。 所以,如果从这100条记录中请求任何东西,我就不必去实际的数据库(例如Sybase db)? 如果在100条记录中找到了密钥,但它不存在于内存缓存中(40条记录),则获取该密钥,放入内存缓存中,并使用驱逐策略将其他密钥交换到磁盘文件中(但在磁盘上,我总是有100条记录) 如果缓存和磁
关键数据结构和相关函数分析 对于第一个问题的出现,在于实验二中有关内存的数据结构和相关操作都是直接针对实际存在的资源--物理内存空间的管理,没有从一般应用程序对内存的“需求”考虑,即需要有相关的数据结构和操作来体现一般应用程序对虚拟内存的“需求”。一般应用程序的对虚拟内存的“需求”与物理内存空间的“供给”没有直接的对应关系,ucore是通过page fault异常处理来间接完成这二者之间的衔接。
spark如何在使用< code>orderBy后确定分区的数量?我一直以为生成的数据帧有< code > spark . SQL . shuffle . partitions ,但这似乎不是真的: 在这两种情况下,spark都< code >-Exchange range partitioning(I/n ASC NULLS FIRST,200),那么第二种情况下的分区数怎么会是2呢?