推特推荐算法的源代码。推特推荐算法是一组服务和作业,负责构建和服务主页时间线。有关算法工作原理的介绍,可参阅博客。
开源库中包含的推荐算法的主要组件有:
类型 | 成分 | 描述 |
---|---|---|
特性 | 模拟集群 | 社区检测和稀疏嵌入这些社区。 |
双核 | 用户和推文的密集知识图嵌入。 | |
信任和安全模型 | 用于检测 NSFW 或滥用内容的模型。 | |
real-graph | 预测 Twitter 用户与其他用户互动的可能性的模型。 | |
tweepcred | 用于计算 Twitter 用户信誉的 Page-Rank 算法。 | |
recos-injector | 流式事件处理器,用于为基于GraphJet的服务构建输入流。 | |
图特征服务 | 为一对定向用户提供图形特征(例如,有多少用户 A 的关注点赞了用户 B 的推文)。 | |
候选来源 | 搜索索引 | 查找网络内推文并对其进行排名。约 50% 的推文来自此候选来源。 |
cr-mixer | 用于从底层计算服务中获取网络外推文候选者的协调层。 | |
用户推文实体图(UTEG) | 在内存中维护一个用户到推文的交互图,并根据该图的遍历找到候选者。这是建立在GraphJet框架之上的。其他几个基于 GraphJet 的特性和候选源位于此处 | |
遵循推荐服务(FRS) | 为用户提供要关注的帐户的建议,以及来自这些帐户的推文。 | |
排行 | light-ranker | 搜索索引 (Earlybird) 使用的轻量级模型对推文进行排名。 |
heavy-ranker | 用于对候选推文进行排名的神经网络。用于选择时间轴推文的主要信号之一。 | |
推文混合和过滤 | home-mixer | 用于构建和服务主页时间线的主要服务。建立在产品混合器上 |
可见性过滤器 | 负责过滤 Twitter 内容以支持法律合规性、提高产品质量、增加用户信任度、通过使用硬过滤、可见产品处理和粗粒度降级来保护收入。 | |
时间线排序器 | 旧版服务,它提供来自 Earlybird 搜索索引和 UTEG 服务的相关性评分推文。 | |
软件架构 | navi | 用 Rust 编写的高性能机器学习模型服务。 |
product-mixer | 用于构建内容提要的软件框架。 | |
twml | 基于 TensorFlow v1 构建的旧版机器学习框架。 |
包括大多数组件的 Bazel BUILD 文件,但不包括顶级 BUILD 或 WORKSPACE 文件。
马斯克4 月 1 日在Twitter宣布开源大部分 Twitter 的源代码,以提高透明度,增强和用户、客户和媒体之间信任度。 以下是一些值得学习借鉴的技术: 数据库技术:Twitter 可能使用了多种数据库系统,如 MySQL、PostgreSQL、MongoDB 等。了解这些数据库系统的工作原理和设计模式,可以帮助开发者更好地利用数据库技术,提高系统的性能、可扩展性和可靠性。 消息队列技
推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。这一类由于需要NLP的基础,本文就不多讲,在后面专门讲NLP的时候再讨论。 2)协调过滤推荐:本文后面要专门讲
Whilst what we get with Backbone out of the box can be terribly useful, there are some equally beneficial add-ons that can help simplify our development process. These include: Backbone Marionette Bac
推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。 解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语的组合(即q
自我介绍 简单介绍一下这个推荐项目 用户数据量和内容数据量,总共有多少特征,具体是大概有哪些特征,用户行为序列用到了吗? 一个特征有多个值的情况是怎么处理的? 有做特征选择吗?训练数据量多大?多路召回怎么做的?多路召回有几路?多路召回是怎么融合的? 有做粗排吗? 召回的离线指标和线上指标大概是什么情况? 用户的冷启动是怎么做的? 介绍一下 GrapSAGE,word2vec, deepwalk,
共计35min 1、自我介绍 2、介绍一下实习? 大模型微调的样本量大概是多少? 详细介绍推荐算法实习的背景和思路? 3、学习经历 本科学过什么课?编程相关的?运筹优化相关的?实验室研究方向是啥? 4、八股 大模型和推荐结合的地方有什么?想做大模型还是推荐? 对推荐系统的哪些地方感兴趣?了不了解召回?有哪些算法?了不了解排序?有哪些算法?介绍一下SENET?用户冷启动怎么做? 推荐系统物品点击率的
自我介绍 对推荐算法了解如何 项目深挖 两个项目都是kaggle上的,面试官还吐槽怎么全是kaggle(这不是非科班没有项目只能硬整两个么) 打比赛模型大家都差不多,如何进行提升 介绍一下transfermer 手写一下transfermer的自注意力的公式 求数组中第k大的数(写了个nlogn的归并,经面试官提醒发现可以用快排写o(n),但是快排忘了) 反问 面试了一个小时,体验还行,面试官看我
由于本身是做cv的,没有任何推荐算法经验,因此本篇内容对于找推荐算法意义不大,纯粹记录一下 1. 自我介绍,然后介绍完面试官问我知不知道面的是推荐算法😅,不过这也是他们看的简历没挂我简历就是他们的问题😄 2.是否知道cv在推荐搜索当中的一些应用? 3.项目介绍,t2i和inpainting模型分别解决什么问题,为什么要级联 4.做的主要是微调的任务,微调过程当中有些什么trick?以及背后的原
9月,一面即挂,女面试官 主要围绕实习和论文, ndcg指标, mrr指标 adam优化器 deepfm 较wide& Deep 的升级,问除了lr替换成fm还有什么 mmoe、essm、ple、star 吟唱 谈谈attention dssm缺点以及解决方案 bagging , boosting 手撕1:两个字符串的最长公共子序列, 秒 手撕2:返回 array1和array2 中两个长度相同的