1.自我介绍 2.对实习展开问:(提及主要做了ods 和ads ,基本就展开ods 问) 实习项目整体是怎样的? 主要做ods层,那涉及到什么数据? 用什么工具? 线上数据能否支持删除(物理删除,逻辑删除)? DataX在同步过程的局限性在哪,在数据同步有没有遇到什么问题? 如何保障线上数据与数仓一致(即如果线上数据删除的话,数仓同步过的数据如何保证一致)?(后续有提及数据质量监控)? ods做了
无自我介绍 首先聊了聊项目在做的过程中有哪些难点,方案是怎么落实的 1.数据倾斜的定位,处理方式 2.spark和flink的区别 3.flink在事件流中会遇到什么问题,怎么解决 我答:乱序问题,解释了一下watermark 4.参加过社团吗,印象最深刻的经历 5.项目为什么采用hive on spark架构 我说了hive的优点,spark相比mr快的原因,以及与spark on hive的区
1、返回每个部门工资排名前二的员工() A、使用ROW NUMBER()函数并通过子查询过滤 B、使用RANK()函数并通过子查询过滤RANK <2 C、使用DENSE RANK()函数并通过子查询过滤RANK <=2 D、使用NTILE(2)函数 2、SQL排序时希望特定某个值排在最后(如null、Unknow等) A、ORDER BY column name ASC B、ORDER BY co
细挖项目 数据仓库和数据库的区别 维度表和事实表是什么,维度退化是什么 拉链表的作用 hive元数据 hive外部表和内部表的区别 两道sql: 1.查找不含重复行。 2.一张表,1行13列,表元素包括uid,1到12月份,值为消费额。把它转成3列12行,列包括uid,月份,消费额。
我有一个具有字符串的实体: 如果没有,JPQL查询会是什么样子?
我有一个存储库,在这个接口中,我有一个方法想要返回ComemtarioEditalDto而不是ComemtarioEdital,但是当我调用此方法时,会引发异常,告诉我我没有转换器,我该如何转换以返回另一个类的实例? 我删除了获取和集合 我删除了获取和设置 有一点例外 org.springframework.core.convert.ConverterNotFoundException:未发现转换
我在新的spring boot应用程序中遇到了一个奇怪的缓慢现象,当我获取一个表用于报告时。 这是一个简单的表,没有对其他表的引用,它有5列。行数为50k。因此,我使用了简单的findAll()方法,该方法在JpaRepository中提供。 当“目标”结果是实体时,findAll()执行需要5分钟。当我设置DTO类投影或接口投影时,执行需要1-2分钟。 我相信对于那么多的数据来说,这仍然太多了。
Git 并不像 SVN 那样有个中心服务器。 目前我们使用到的 Git 命令都是在本地执行,如果你想通过 Git 分享你的代码或者与其他开发人员合作。 你就需要将数据放到一台其他开发人员能够连接的服务器上。 本例使用了 Github 作为远程仓库,你可以先阅读我们的 Github 简明教程。 添加远程库 要添加一个新的远程仓库,可以指定一个简单的名字,以便将来引用,命令格式如下: git rem
29.3.2 Spring Data JPA仓库 Spring Data JPA仓库是可以定义用于访问数据的接口。JPA的查询是根据方法名称自动创建的。例如,CityRepository接口可能会定义一个findAllByState(String state)方法来查找某个州的全部城市。 对于更复杂的查询,您可以使用Spring Data的Query对方法进行注解。 Spring Data仓库通常
现在我们已经参照 教程 - 克隆仓库 克隆了一个 仓库; 我们仓库的本地拷贝叫 my-hello. 让我们看一看这个仓库的历史记录。我们用 log 命令来做这个事情。这个命令按时间顺序从近到远输出在仓库中发生的每一个事件。 $ cd my-hello $ hg log changeset: 1:82e55d328c8c tag: tip user: mpm
在版本控制系统上,大约90%的操作都是在本地仓库(local repository)中进行的:暂存,提交,查看状态或者历史记录等等。除此之外,如果仅仅只有你一个人在这个项目里工作,你永远没有机会需要设置一个远程仓库(remote repository)。 只有当你需要和你的开发团队共享数据时,设置一个远程仓库才有意义。你可以把它想象成一个 “文件管理服务器”,利用这个服务器可以与开发团队的其他成员
一面 9.24 面试时间:30min 自我介绍 实习介绍 数仓分层? ODS层怎么分区的?多久清理一次? DWD层做了那些工作? 数据清洗怎么搞的?清洗掉了那些字段?为啥要清洗这些?后面不会用吗?如果后面的指标需要用怎么办? 怎么脱敏的?UDF怎么用?除了UDF还有什么方式? 维度退化是怎么做的?为什么要这样做? 宽表都在那一层? 开窗函数用过那些?rank,dense_rank区别? lead,
开局自我介绍,然后她也介绍了一下部门工作;问了一下数据库和数据仓库的区别,我说是回答八股文还是回答自己的经历;然后她让我结合自己的经历说了一下;接着问我对数仓分层了解的多少,对维度建模了解多少,对数仓的模型(星形,雪花,星座)之类的了解的多吗?之后问我对数仓的每个方向的具体分层有什么认识吗?我都没听明白这个问题,只好老老实实回答了一句这些东西并不是我负责的,接着她说结合我自己的理解谈一谈.....
b站数据仓库实习一面面经(约一个小时) 1 自我介绍,包含了自己的项目介绍 2 项目中对你比较有挑战和困难的点是什么 3 问了一下实习公司的主要业务线有哪些 4 问了一下项目是公司的项目还是自己独立开发的 5 在公司负责的主要工作是什么 6 抽一个对你印象比较深的项目讲一讲(引申出来了下面三个问题) 7 数据探查会做的工作有哪些 8 验数的工作主要做了哪些 9 产品和业务沟通不够导致的指标不一致,
一上来就问实习项目,项目的背景,服务公司深挖。。以下简单回忆下八股 1.java的一些基础,list和map,linkedlist和arraylist区别 2.hadoop简单介绍下三组件 3.事实表有哪些 4.Combiner的作用 5.数据倾斜以及如何解决 还有些忘了。。。 哦对,他家的笔试,两道简答,另外全是sql题,偏难