LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势:
效果好:通过深度学习模型联合学习分词、词性标注、专名识别任务,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果业内领先。
github:https://github.com/baidu/lac
7.20 一面 40分钟 1.自我介绍 项目部分: 2.常见模型的结构:bert,TextCNN,transformer,ERNIE 3.怎么比较用哪个模型更好 4.模型输入的长度限制是多少 5.怎么解决多标签问题的 6.attention的时间复杂度是多少 7.有没有做过知识图谱和问答 8.GPT的结构 9.各个类别数据不均衡怎么办? 10.关于模型的部署和优化 11.a,b是两个常数,怎么在不
一面 简单挖简历 你的三个项目怎么做的? 讲一下cnn? 讲一下lstm? 讲一下反向传播? 讲一下sigmoid函数? 讲一下逻辑回归和随机森林的优缺点? 讲一下svm? 在线共享codding—求一个正数的平方根 在线codding,求链表的倒数第k个位置的value,由于时间原因只说了思路 二面 中度挖简历 三个项目的部分细节? 第一个项目后续优化的思路? 讲一下你对大模型的理解,知道哪些大
8.1一面1h➕45mins 面试时间最久的一场 简历上项目问了个遍,问了一个小时 手撕字典树,卡了半小时不会写 手撕最长公共子序列 如何评估两个文本的相似度 人要面傻了,面了这么久 面完发现状态秒变共享中 #百度信息集散地#
分享面经 攒攒欧气! 一面 1. 首先是自我介绍加一个项目介绍 介绍了研究生期间的课题 用了什么方法?提升了多少指标?分析过badcase吗? 2. 简历有写大模型微调 问了目前的大模型微调方法你觉得哪一个最好? 3. 反问 二面 1. 自我介绍 2. 介绍命名实体识别项目,实体嵌套怎么解决? 3. 介绍大模型角色扮演项目,数据集怎么构建?原本微调后大模型只能扮演一个角色,问训练一次能否实现大模型
一面 拷打论文、项目 拷打预训练、SFT基础 gpt类型的八股 llama更新迭代、MoE 手撕最长无重复子串 鉴于某小地瓜平台喜欢copy我的面经,我就不具体列出问题了,有需要具体细节的可以私聊我 二面 拷打论文 decoding 对齐算法 配比、数据质量 场景题 手撕 “leetcode刷的多吗” “不多” “那写个快排吧” 三面 拷打项目 预训练流程 RL知识 数据质量保证 拷打论文 问业务
百度AI产品面经-业务面 1、介绍一下你的第二段实习做的项目 2、你在这个过程中主要完成的是什么工作 3、一些项目细节的问题,问的很细致 4、你不会感觉这样的产品很重吗,有考虑过标准化的工作吗 5、之前做的是机器学习相关的解决方案架构,为什么想做产品 6、各个主流的机器学习平台的功能差异化 7、你对这些机器学习平台的评价是什么 8、你会用什么原型工具,和一些产品需要用的软件 9、后面给我介绍了做的
本文向大家介绍MongoDB开源数据库开发工具dbKoda,包括了MongoDB开源数据库开发工具dbKoda的使用技巧和注意事项,需要的朋友参考一下 Southbank Software公司最近发布了 dbKoda 0.6.0 ,这是该软件的 首个发布版 。dbKoda是一款开源的 MongoDB 开发工具,采用JavaScript、 React 和 Electron 开发。下图显示了dbKod
1.概述 Selenium是非常非常有用的,对JavaScript支持良好的Web层功能测试,集成测试工具。 Selenium分为Core与RC(Remote Controll)两个部分,其中Core是基础的,直接在HTML Table里编写测试代码的模块,而Remote Controll则支持用Java等语言编写测试用例,并自动调用FireFox1.5来运行。 具体的语法见http://www.