当前位置: 首页 > 面试题库 >

推荐系统的大概步骤,解决冷启动。。。

申屠黎昕
2023-03-14
本文向大家介绍推荐系统的大概步骤,解决冷启动。。。相关面试题,主要包含被问及推荐系统的大概步骤,解决冷启动。。。时的应答技巧和注意事项,需要的朋友参考一下

参考回答:

步骤:1)收集用户的所有信息。2)使用大数据计算平台对收集的信息进行处理,的到用户偏好数据。3)将偏好数据导入喜好类型计算算法中进行预算计算,的到预算结果。4)将推荐的结果导入数据库(redis、hbase)。5)发开一个推荐引擎,对外开放接口,输出推荐结果。

解决冷启动的方案:

1)提供非个性化的推荐

最简单的例子就是提供热门排行榜,可以给用户推荐热门排行榜,等到用户数据收集到一定的时候,再切换为个性化推荐。例如Netflix的研究也表明新用户在冷启动阶段确实是更倾向于热门排行榜的,老用户会更加需要长尾推荐

2)利用用户注册信息

用户的注册信息主要分为3种:(1)获取用户的注册信息;(2)根据用户的注册信息对用户分类;(3)给用户推荐他所属分类中用户喜欢的物品。

3)选择合适的物品启动用户的兴趣

用户在登录时对一些物品进行反馈,收集用户对这些物品的兴趣信息,然后给用户推荐那些和这些物品相似的物品。一般来说,能够用来启动用户兴趣的物品需要具有以下特点:

比较热门,如果要让用户对物品进行反馈,前提是用户得知道这是什么东西;

具有代表性和区分性,启动用户兴趣的物品不能是大众化或老少咸宜的,因为这样的物品对用户的兴趣没有区分性;

启动物品集合需要有多样性,在冷启动时,我们不知道用户的兴趣,而用户兴趣的可能性非常多,为了匹配多样的兴趣,我们需要提供具有很高覆盖率的启动物品集合,这些物品能覆盖几乎所有主流的用户兴趣

4)利用物品的内容信息

用来解决物品的冷启动问题,即如何将新加入的物品推荐给对它感兴趣的用户。物品冷启动问题在新闻网站等时效性很强的网站中非常重要,因为这些网站时时刻刻都有新物品加入,而且每个物品必须能够再第一时间展现给用户,否则经过一段时间后,物品的价值就大大降低了。

5)采用专家标注

很多系统在建立的时候,既没有用户的行为数据,也没有充足的物品内容信息来计算物品相似度。这种情况下,很多系统都利用专家进行标注。

6)利用用户在其他地方已经沉淀的数据进行冷启动

以QQ音乐举例:QQ音乐的猜你喜欢电台想要去猜测第一次使用QQ音乐的用户的口味偏好,一大优势是可以利用其它腾讯平台的数据,比如在QQ空间关注了谁,在腾讯微博关注了谁,更进一步,比如在腾讯视频刚刚看了一部动漫,那么如果QQ音乐推荐了这部动漫里的歌曲,用户会觉得很人性化。这就是利用用户在其它平台已有的数据。

再比如今日头条:它是在用户通过新浪微博等社交网站登录之后,获取用户的关注列表,并且爬取用户最近参与互动的feed(转发/评论等),对其进行语义分析,从而获取用户的偏好。

所以这种方法的前提是,引导用户通过社交网络账号登录,这样一方面可以降低注册成本提高转化率;另一方面可以获取用户的社交网络信息,解决冷启动问题。

7)利用用户的手机等兴趣偏好进行冷启动

Android手机开放的比较高,所以在安装自己的app时,就可以顺路了解下手机上还安装了什么其他的app。比如一个用户安装了美丽说、蘑菇街、辣妈帮、大姨妈等应用,就可以判定这是女性了,更进一步还可以判定是备孕还是少女。目前读取用户安装的应用这部分功能除了app应用商店之外,一些新闻类、视频类的应用也在做,对于解决冷启动问题有很好的帮助。

 类似资料:
  • 背景与挖掘目标 随着互联网的快速发展,用户很难快速从海量信息中寻找到自己感兴趣的信息。因此诞生了:搜索引擎+推荐系统 本章节-推荐系统: 帮助用户发现其感兴趣和可能感兴趣的信息。 让网站价值信息脱颖而出,得到广大用户的认可。 提高用户对网站的忠诚度和关注度,建立稳固用户群体。 分析方法与过程 本案例的目标是对用户进行推荐,即以一定的方式将用户与物品(本次指网页)之间建立联系。 由于用户访问网站的数

  • 本章将介绍协同过滤,基本的距离算法,包括曼哈顿距离、欧几里得距离、闵科夫斯基距离、皮尔森相关系数。使用Python实现一个基本的推荐算法。 内容: 推荐系统工作原理 社会化协同过滤工作原理 如何找到相似物品 曼哈顿距离 欧几里得距离 闵可夫斯基距离 皮尔逊相关系数 余弦相似度 使用Python实现K最邻近算法 图书漂流站(BookCrossing)数据集

  • Ceph 依赖 按常规来说,我们建议在较新的 Linux 发行版上部署 Ceph ;同样,要选择长期支持的版本。 Linux 内核 Ceph 内核态客户端 当前我们推荐: 4.1.4 or later 3.16.3 or later (rbd deadlock regression in 3.16.[0-2]) NOT v3.15.* (rbd deadlock regression) 3.14.

  • 我将本章学到的内容都汇集成了一个Python类,虽然代码有些长,我还是贴在了这里: import codecs from math import sqrt users = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoenix": 5.0

  • 本文向大家介绍MySQL-group-replication 配置步骤(推荐),包括了MySQL-group-replication 配置步骤(推荐)的使用技巧和注意事项,需要的朋友参考一下 MySQL-Group-Replication 是mysql-5.7.17版本开发出来的新特性;它在master-slave 之间实现了强一致性, 但是就目前来说主要是性能不太好。 【1】确定当前的mysql

  • 背景与挖掘目标 随着互联网的快速发展,用户很难快速从海量信息中寻找到自己感兴趣的信息。因此诞生了:搜索引擎+推荐系统 本章节-推荐系统: 帮助用户发现其感兴趣和可能感兴趣的信息。 让网站价值信息脱颖而出,得到广大用户的认可。 提高用户对网站的忠诚度和关注度,建立稳固用户群体。 分析方法与过程 本案例的目标是对用户进行推荐,即以一定的方式将用户与物品(本次指网页)之间建立联系。 由于用户访问网站的数