1.数据分层概念 2.Hadoop 和spark 优缺点 3.数据倾斜 场景题 大表和小表join 4.宽窄依赖 5.sql题 6.走楼梯算法 7.hive的用户自定义方法区别
五一前收到了暑期实习oc,记录一下时间线~ 4.8投递 4.23上午一面 4.27下午二面 4.28傍晚收到短信、邮箱、hr电话,收oc啦! 5.4今天上午收到邮件填了入职信息 base北京(望京东,要合租的女宝子请戳我!) 总结一下,我暑期实习4月份才开始投,算是比较晚,所以团子一面我的第一场面试,当时感觉回答的很不好,心里准备是直接进人才库的,收到二面通知时挺惊讶的,然后好好准备了项目,想要抓
问题内容: 我的redis实例似乎正在变得非常大,我想找出我那里的多个数据库中的哪个消耗了多少内存。Redis的命令仅向我显示了每个数据库的总大小和密钥数,这并没有给我带来太多的了解…因此,在监视Redis服务器时为我提供更多信息的任何工具/想法都将受到赞赏。 Redis文档没有显示任何可以返回某些键消耗的内存的命令,因此我想如果有错误代码会为Redis写很多“废纸t”,这可能很难找到… 问题答案
中午两点打过来,我说暂时没空约了晚上八点 面试时间控的很准,也没有反问就结束了 一面15min [项目]- [ ] Linux起一个服务端的过程 -[ ] 使用哪种epoll工作方式 - [ ] 水平触发与边缘触发编写时要注意些什么 - [ ] 多进程如何通信 - [ ] fork如何判断父子进程 - [ ] 虚函数的作用 - [ ] 虚函数的使用场景 - [ ] 了解的C++智能指针 - [ ]
面试官介绍了一下部门主要业务(数据挖掘、分布式存储、机器学习、虚拟化) 动态多态的实现原理 虚函数表是属于类的还是类对象的 静态成员函数可以是虚函数吗 为什么析构函数默认不是虚函数 内存对齐的作用 vector和map用迭代器一边遍历容器一边删除元素,迭代器会失效吗 map是有序的还是无序的,底层实现是什么 map为什么底层实现是红黑树而不是AVL IP层有MTU报文分段策略,那TCP是不是可以不
我正试图将一个保存到一个嵌套中。但是当我尝试这么做时,服务器崩溃了,这就是我在控制台上看到的问题。日志: 有一件事是JSON请求的大小是1095922字节,在Nest中有人知道怎么做吗。js是否增加有效请求的大小?谢谢
问题内容: 我想知道是否可以限制您可以返回的带有标记的图像数量? 这是我的代码: 我有50张回来的照片,但我只有20张照片回来。我知道我们已经标记了250多个。 问题答案: 该API每次调用仅返回20张图片。这是数据派上用场的地方,您可以使用Instagram API提供的内容,在此处了解更多信息。 这是用PHP和jQuery编写的,但可以帮助您步入正轨:加载更多示例
问题内容: 如何使用aiohttp在客户端设置每秒最大请求数(限制请求数)? 问题答案: 我在这里找到了一种可能的解决方案:http : //compiletoi.net/fast-scraping-in-python-with- asyncio.html 同时执行3个请求很酷,但是同时执行5000个则不太好。如果您尝试同时执行太多请求,则连接可能会开始关闭,甚至可能被网站禁止。 为避免这种情况,
GMV上周跌了20%,你会怎么分析 这是一道场景题,如果完全没有准备,很可能答不到点上 这类数据波动分析的题目,也称之为异动分析题,今天就给你好好讲讲怎么回答 回答,一共分为3步 第一步,确认异常 先分析数据是不是有误,上周是不是个数据高峰,所以显得这周数据下跌了... 第二步,拆解归因 确认了异常之后,下一步就是分析异常的原因,这也是异动分析的关键步骤。通常有2种方法 1.指标拆解:指标之间如果
我正在学习用于构建神经网络的Deeplearning4j(Ver.1.0.0-M1.1)。 我使用Deeplearning4j的IrisClassifier作为一个例子,它工作得很好: 对于我的项目,我输入了大约30000条记录(在iris示例-150中)。每个记录是一个矢量大小~7000(在iris示例-4中)。 显然,我不能在一个数据集中处理整个数据--这将为JVM产生OOM。 如何处理多个数
问题内容: 我的应用程序的数据库需要填充大量数据,因此在期间,不仅有一些创建表sql指令,而且还有很多插入。我选择的解决方案是将所有这些指令存储在res / raw中的sql文件中,该文件已加载。 它运作良好,但我面对编码问题,sql文件中有一些突出的字符,在我的应用程序中看起来很糟。这是我的代码来做到这一点: 我发现避免这种情况的解决方案是从一个巨大的而不是文件中加载sql指令,并且所有突出的字
好吧,我对使用Scala/Spark还比较陌生,我想知道是否有一种设计模式可以在流媒体应用程序中使用大量数据帧(几个100k)? 在我的示例中,我有一个SparkStreaming应用程序,其消息负载类似于: 因此,当用户id为123的消息传入时,我需要使用特定于相关用户的SparkSQL拉入一些外部数据,并将其本地缓存,然后执行一些额外的计算,然后将新数据持久保存到数据库中。然后对流外传入的每条
2024.1.9 面试 Boss直聘沟通 公司要求驻场开发,接受加班,接受出差 你是25届是吧?能在六个月左右是吗?目前在校吗? 后续有什么规划? 你怎么理解数据开发这个岗位的? 讲讲简历上这两个项目?是你在学校做的是吧? 项目你是全程参与是吧? 聊天这个项目的数据源是哪里来的呀? 项目整体是落在HDFS上是吧? 单一架构,嗷,然后可视化,是哇? 下一个电商项目介绍一下? 数据来源讲讲? 那意思是
数据库日积月累几个G后,从服务器A导入到服务器B 导入数据库总是失败。内存不足或者直接崩了。 请问有什么方案可以稳定的分段导入吗?
尝试使用PUT请求更新数据。但是,数据没有更新和返回邮递员中的以前的数据。 邮递员提出要求: 邮递员回复: 我也尝试过使用findByIdAndUpdate。没有得到结果。任何帮助都将不胜感激。 控制器: 路由器: