微软 bing LLM 应用面经

优质

小牛编辑

104浏览

2024-03-29

微软 bing LLM 应用面经

这次面的是工程院 bing 团队的 LLM 应用组，问的问题量不大，有一些比较开放性的问题比较有意思。
1.自我介绍两面都有
2. 主要会根据项目做一些介绍，这个一面久，二面短一些。
3. 一面问了 transformer 结构
4. 有没有做过大模型之外的 NLP 相关的内容（简单讲了讲）
二面的开放性问题
5. 做 rag 应用的时候，如果幻觉问题严重怎么办？比如已经给了很多 rag 召回的内容了，但是还是错误很多，尤其是一些时间数字类的信息，很容易不准确。（我回答：类似于指令微调，构造对应的数据集，微调强化大模型对检索的内容的跟随能力）
6.接着上面，那你觉得这种数据集怎么构造呢？检索的内容和问题很好弄，但是答案怎么获取方便？（我：我觉得可以反向构造，我先从网络上爬一堆内容作为答案，比如把新闻里的一些信息作为答案，然后让大模型比如 gpt4 生成对应的问题，再检索召回相关的内容，构造数据集。面试官说这个想法还挺有意思的）
7. 我想通过加噪声的方式提高模型的鲁棒性，你觉得这个噪声应该怎么加好？或者说怎么确定加在 token 的什么位置，加什么 token？（不太懂，我就说从我一般的理解，加噪声都是从 embedding 去加的，比如随机加一些高斯噪声提高鲁棒性）
8.如果我做 rag 召回的相关内容里，会有人恶意注入了一些错误的信息，你觉得会影响大模型的生成内容吗？怎么避免？（我认为肯定会有影响，因为关注的信息有错。我觉得可以提高召回的信息量，从而稀释错误信息占比来解决）
9.接着上面的回答，我们的输入长度有限制，不能无限加召回的内容怎么办？（可以在检索召回链路中再加一层，类似于粗排后再精排一次，从而减少错误信息的量）
其他的不记得了，就是感觉现在面试很喜欢问一些开放性问题。
代码题
一面编辑距离，二面是一个有序数组左边平移一定位置后的数组，找到一个 target 的下标。都不算难。

微软 bing LLM 应用面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答