工作职责:
1、搭建具有通用性和可扩展性的意图和情感框架体系;
2、根据用户文本数据制定语义分析的策略与分类标注标准;
3、辅助算法对NLU场景下的用户数据进行基于语义学的标注框架探索;
4、参与NLP模型自动化训练和优化,保证模型按时上线,保障模型线上效果;
5、为字节跳动产品提供NLP技术支持,用AI技术影响数亿用户。
任职要求:
1、语言学、计算语言学、计算机相关专业,硕士及以上学历;
2、有句法学、语义学、语用学及Ontology研究经历者优先;
3、有意图框架设计和标注的工作经历或者相关经验者优先;
4、熟悉FrameNet、PropBank、WordNet等词汇库的候选人优先;熟悉语义表示体系的候选人优先;
5、会使用python/有机器学习经验/了解NLP技术者优先;
6、思维活跃、有探索精神、耐心细致、渴望挑战真实业务场景中的对话系统问题。
首先介绍一下本人背景:本科对外汉语专业,硕博自然语言处理方向偏语言学,对算法有了解,但没有实操过。
整体感觉一面更偏向具体的业务场景,二面更偏向过往经历,以及如何把过往经历迁移到具体场景中。
一面(50min左右) 1. 自我介绍
2. 所做过的一个项目介绍
3. 有做过意图识别的相关工作吗?怎么理解意图?
4. 说几个中文问天气的句式?英文问天气的句式
5. 对买车情境进行一个意图分类
6. 说了几个句子进行意图划分,具体到消费场景中,各自表示什么意思
7. 怎么根据标注数据判断标注人员的水平?
8. 意图识别一般用什么模型来做?说说你了解的深度学习模型原理
9. 假如遇到外包团队接的项目比较多,对你的标注项目不够配合,怎么处理
10. 如何从0到1构建意图标注体系?
11. 说说自己学过的关于语义方面的课程,给几个句子进行了分词词性标注
12. 介绍一下语义角***r />
二面(30min左右) 1. 自我介绍
2. 项目介绍
3. propbank和所做项目的区别
4. 谓词有多少个?如何分类?
5. 另一个项目的介绍
6. 接触过标注团队吗?标注过程中遇到的问题?
7. 对于标注效果不理想的情况如何处理?
8. 数据交接给算法,模型也训练完了,最后产品上线之后,效果不理想,分析一下可能的原因,如何应对
9. 生活中遇到一天要完成多项工作时,如何应对?
10. 标注过程中遇到的歧义怎么解决?
11. 中文概念框架如何迁移到英文?如何确定英文的标注数据集?是否可以人工造句子?
三面(30min左右) 交叉面,面试官是做算法的
1. 自我介绍
2. 对话或者闲聊有什么标准可以判断好坏
3. 有什么标准判断句子的流利度或完整性
4. python用过哪些
5. 正则表达式用那个包
6. 用python给语料去重怎么做?
7. 意图体系怎么设计
8. 怎么确定意图体系是否合理
9. 如何从大批数据中提取整理意图标注体系
10. 怎样保证标注人员对标注体系认知的一致性
11. 参与过哪些实际的业务?
四面 HR面(15分钟左右)
目前已经拿到实习offer
#字节跳动实习#