中原银行算法工程师面试之解答

优质

小牛编辑

190浏览

2023-03-28

中原银行算法工程师面试之解答

Bert的模型架构讲一下？

BERT模型的全称是：BidirectionalEncoder Representations from Transformer，也就是说，Transformer是组成BERT的核心模块，而Attention机制又是Transformer中最关键的部分，因此，利用Attention机制构建Transformer模块，在此基础上，用多层Transformer组装BERT模型。

Attention机制主要涉及到三个概念：Query、Key和Value。在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。该Attention机制也叫Self-Attention。

说一下机器学习和神经网络之间的模型之间的区别

1.数据依赖

随着数据量的增加，二者的表现有很大区别：

深度学习适合处理大数据，而数据量比较小的时候，用传统机器学习方法也许更合适。

2.硬件

深度学习十分地依赖于高端的硬件设施，深度学习都要求有GPU参与运算。相反，普通的机器学习对于硬件不太依赖。

3.特征工程

在机器学习方法中，几乎所有的特征都需要通过行业专家在确定，然后手工就特征进行编码。

然而深度学习算法试图自己从数据中学习特征。

4.模型大小

深度学习训练出来的模型参数可以达到几千亿，非常大。而机器学习模型很小，甚至有的算法本身就是模型，可执行文件很小。

5.运行时间

深度学习需要花大量的时间来训练，因为有太多的参数需要去学习。但是机器学习一般几秒钟最多几小时就可以训练好。

而运行时间机器学习更快，甚至几ms

6.可理解性

深度学习很多时候我们难以理解。至今无法用精准的数学模型来描述。

但是机器学习不一样，比如决策树算法，就可以明确地把规则给你列出来，每一个规则，每一个特征，你都可以理解。

如果模型过拟合了应该怎么处理？

中原银行算法工程师面试之解答

热门公司

相关阅读

推荐文章

推荐题库

推荐问答