Bert的模型架构讲一下?
BERT模型的全称是:BidirectionalEncoder Representations from Transformer,也就是说,Transformer是组成BERT的核心模块,而Attention机制又是Transformer中最关键的部分,因此,利用Attention机制构建Transformer模块,在此基础上,用多层Transformer组装BERT模型。
Attention机制主要涉及到三个概念:Query、Key和Value。在上面增强字的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。该Attention机制也叫Self-Attention。
说一下机器学习和神经网络之间的模型之间的区别
1.数据依赖
随着数据量的增加,二者的表现有很大区别:
深度学习适合处理大数据,而数据量比较小的时候,用传统机器学习方法也许更合适。
2.硬件
深度学习十分地依赖于高端的硬件设施,深度学习都要求有GPU参与运算。相反,普通的机器学习对于硬件不太依赖。
3.特征工程
在机器学习方法中,几乎所有的特征都需要通过行业专家在确定,然后手工就特征进行编码。
然而深度学习算法试图自己从数据中学习特征。
4.模型大小
深度学习训练出来的模型参数可以达到几千亿,非常大。而机器学习模型很小,甚至有的算法本身就是模型,可执行文件很小。
5.运行时间
深度学习需要花大量的时间来训练,因为有太多的参数需要去学习。但是机器学习一般几秒钟最多几小时就可以训练好。
而运行时间机器学习更快,甚至几ms
6.可理解性
深度学习很多时候我们难以理解。至今无法用精准的数学模型来描述。
但是机器学习不一样,比如决策树算法,就可以明确地把规则给你列出来,每一个规则,每一个特征,你都可以理解。
如果模型过拟合了应该怎么处理?