TimeLine:一面20211108,二面20211110,三面20211112 当时的BG:北邮本硕,管理类专业,一段实习经历:美团商业分析师 写在前面的话:该文档记录日常实习面试的相关问题,面试时间为2021年。以下问题的答案可能存在错误,敬请读者批评指正 一面 1. SQL考察 数据表:用户表user_profile,字段有:user_id'用户id'和login_date'用户登录日期'
写在前面:约的晚上八点半面试,直接是业务面,预估至少四个人面这个岗位,总共四个问题 1、经典GMV异动分析—指标拆解分析 2、业务方询问AB测结果分析——我说了要进行业务上以及统计上的分析,面试官补充说考虑对实验组进一步细化,找出唯一的影响变量 3、数据倾斜了解吗?—一脸懵逼,直接说不会,面试结束后自己去了解一下 4、sql题:唯品会APP页面有可能同时出现id不相同,但实际上是同一商品的情况,对
1、自我介绍 2、说说对数据产品经理的认识 3、为什么想做产品经理 4、产品经理的职责有哪些 5、数据产品经理和产品经理的区别在哪里 6、了解数据埋点吗 7、了解数据仓库吗,简单介绍下 8、说说数据仓库和数据库的区别 9、数据仓库使用上有哪些优点 10、怎样把握用户需求 11、面对客户提出的需求,怎样分析 12、做过竞品分析吗,说说你最常用的app并对其与其竞品进行简要分析(小红书与bilibil
excel题:不让用中间表,只能用计算公式 用到了VLOOKUP(),index(match()),sumproduct,countif(),sumif(),if(),rank()函数 SQL题: 为给流失玩家(手机号下所有账号近30天都没有登录)发送召唤短信,现需要计算每个手机号下的付费总金额,且按每个手机号付费金额从高到低进行排序 特定行为匹配,找出用bug的玩家(用不上开窗,join就行)
一面(5.5): 1.自我介绍 2.机器学习项目的y值是什么 3.科大讯飞实习有没有发现什么数据 4.两道sql(最大连续登录+两表最值问题) 5.为什么想来互联网 6.入职时间 反问: 1.业务技术占比 2.要用python吗 二面(5.8): 1.自我介绍 2.互联网数分干什么的有了解吗?以后就一直数分吗? 3.广告点击率下降怎么分析 为什么没有互联网实习却能讲这么全面? (因为在牛客 知乎
问题内容: 我只是尝试使用sklearn.decomposition中的IncrementalPCA,但它像以前的PCA和RandomizedPCA一样引发了MemoryError。我的问题是,我要加载的矩阵太大,无法放入RAM。现在,它以形状〜(1000000,1000)的数据集形式存储在hdf5数据库中,因此我有1.000.000.000 float32值。我以为IncrementalPCA可
问题内容: 我有一个大约有800万条新闻文章的语料库,我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量,但是我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。 谁知道,对于大型数据集,提取TFIDF向量的最佳方法是什么? 问题答案: Gensim具有高效的tf-idf模型,不需要一次将所有内容存
问题内容: 我用来并行化一些繁重的计算。 目标函数返回大量数据(庞大的列表)。我的RAM用完了。 如果不使用,我只需将生成的元素依次计算出来,就将目标函数更改为生成器。 我了解多处理不支持生成器- 它等待整个输出并立即返回,对吗?没有屈服。有没有一种方法可以使工作人员在数据可用时立即产生数据,而无需在RAM中构造整个结果数组? 简单的例子: 这是Python 2.7。 问题答案: 这听起来像是队列
SuperMap iClient for Leaflet 对接了 SuperMap iServer 的分布式分析服务,为用户提供大数据分析功能,主要包括: 密度分析 点聚合分析 单对象空间查询分析 区域汇总分析 矢量裁剪分析
由于网络的原因,如何有效的写大数据在异步框架是一个特殊的问题。因为写操作是非阻塞的,即便是在数据不能写出时,只是通知 ChannelFuture 完成了。当这种情况发生时,你必须停止写操作或面临内存耗尽的风险。所以写时,会产生大量的数据,我们需要做好准备来处理的这种情况下的缓慢的连接远端导致延迟释放内存的问题你。作为一个例子让我们考虑写一个文件的内容到网络。 在我们的讨论传输(见4.2节)时,我们
1.自我介绍 2.大数据项目battle 3.对于窗口函数的了解 有什么,什么场景,怎么用 4.文本拼接函数是什么 5.hbase负载均衡怎么实现 6.cv项目battle 不同模型的区别 网络+部署 7.反问 京东商城核心检索业务 和leader讨论面试结果,一周内hr会联系
1.自我介绍 2.你的优势是什么 3.对数仓怎么看 4.sql,有id,score。怎么实现按score排序并且要排名,不能使用开窗函数。
本文向大家介绍开源数据库,包括了开源数据库的使用技巧和注意事项,需要的朋友参考一下 开源数据库是具有开源代码的数据库,即任何人都可以查看,研究甚至修改代码。开源数据库可以是关系(SQL)或非关系(NoSQL)。 为什么要使用开源数据库? 为任何公司创建和维护数据库都非常昂贵。在软件总支出中,很大一部分用于处理数据库。因此,切换到低成本开源数据库是可行的。从长远来看,这可以为公司节省很多钱。 使用中
在“倾斜摄影”菜单栏中点击“打开数据”,找到本地倾斜摄影索引(lfp)文件存放位置,点击打开osgb转换后的lfp格式倾斜摄影数据文件(具体转换步骤见“倾斜摄影”菜单栏中的“数据转换”),该lfp文件包含三维模型所在的经度、纬度、高度值,便于倾斜摄影三维模型在地球上进行定位。支持倾斜摄影三维模型格式为smart3d生成的osgb格式。 打开后数据效果如下图。可以用鼠标左
有时候,由于各种原因会导致接口测试失败,此时我们需要查看测试时实际发送了什么数据。 在控制台中查看 为了尽可能方便地查看发送数据,我们已经将各个阶段的日志打印在浏览器的控制台中了,类似下面的效果: 查看插件背景页的网络请求面板 接口测试需要安装一个浏览器插件,XHR Proxy Tool,这是一个跨域请求的插件,本地 localhost 地址也是可以直接请求到的,实际的网络请求是这个插件发出的。可