个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
召回层的意义在于从百万量级的内容库中快速筛选出几百量级的内容,所以特点:数据量大、速度快、模型简单、特征较少。
具体实现分为统一召回和多路召回,并且可以人工定义不同的召回策略。
排序阶段分为粗排和精排,将几百量级的内容筛选成数十个或者十个以内的内容,并且进行排序,从而被用户消费。特点:数据量小、排序精准、模型复杂、特征很多。
排序可以根据算法和模型来实施,但同时也可以根据热点、内容的时效性、广告等因素手动更改策略,在用户的内容序列中加入自定义的内容。
离线计算:一段时间内的数据→提取特征→训练模型并储存
实时计算:用户向服务器发起请求,通过模型计算结果,拉取推荐列表(假如模型实时计算时间长,则提前离线计算导出结果,储存在表中,用户请求时直接从表中拉取)
离线推荐属于对用户数据进行批处理,因而更常见地部署在Hadoop+Spark集群中。