推荐系统介绍

算法简介

基于人口统计学的推荐

基于人口统计学的推荐机制是最易于实现的推荐算法,它只是简单的根据用户的基本信息发现用户的相关程度。

对于没有明确含义的用户信息(比如登录时间、地域等)可以通过聚类等手段,给用户打上分类标签。

对于特定标签的用户,又可以根据预设的规则(知识)或者模型,推荐出对应的物品。

例如,用户A年龄范围属于20-30岁,性别女,喜欢物品a,用户C年龄范围属于20-30岁,性别女,那么用户A和用户C相似,可以推荐物品a给用户C;

用户画像

用户信息标签化的过程一般又称为用户画像(User Profiling)。

企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户地商业全貌。

作为大数据地根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息提供了足够地数据基础。

基于内容的推荐

根据推荐物品或内容的元数据,发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。

通过抽取物品内在或者外在的特征值,实现相似度计算,比如一个电影,有导演、演员、标签、评论、时长、风格等;

将用户(User)个人信息的特征和物品(Item)的特征相匹配,就能得到用户对物品感兴趣的程度。

例如,用户A喜欢电影a,电影a类型属于“爱情”,存在电影c的类型属于“爱情、剧情”,那么可以推荐电影c给用户A;

相似度计算

相似度的评判,可以用距离表示,而一般更常用的是“余弦相似度”。

欧式距离:

d(x,y)=\sqrt{\sum_{i}(x_i-y_i)^2}

余弦相似度:

\cos\theta=\dfrac{a\cdot b}{||a||\times||b||}=\dfrac{\sum\limits_{i}x_iy_i}{\sqrt{\sum\limits_{i}x_i^2}\times\sqrt{\sum\limits_{i}y_i^2}}

基于协同过滤的推荐

基于内容的推荐主要利用的是用户评价过的武平的内容特征,而协同过滤可以利用其他用户评分过的物品内容;

可以解决基于内容的一些局限,包括物品内容不完全或难以获得时;协同规律基于用户之间对物品的评价质量,避免了基于内容仅依赖于内容可能造成的对物品质量判断的干扰;

混合推荐

一般网站的推荐系统不是单纯采用一种,多是几个方法混合,从而达到更好的推荐效果。

常见的组合方法:

  1. 加权混合

  2. 切换混合

  3. 分区混合

  4. 分层混合

小结

123.png

推荐系统互赢三方:用户、平台、内容;

  1. 让用户更快更好的获取到自己需要的内容;

  2. 让内容更快更好的推送到喜欢它的用户手中;

  3. 让平台更有效的保留用户资源;

数学基础

《微积分》、《线性代数》、《概率与统计》

机器学习模型介绍

监督学习

回归模型

线性回归模型

一种线性模型,它假设输入变量x和单个输出变量y之间存在线性关系。

具体来说,可以从一组输入变量x的线性组合中计算出变量y:

y=ax+b
f(x)=w_1x_1+w_2x_2+\cdots+w_nx_n+b

最小二乘法

基于均方误差最小化来进行模型求解的方法。

它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小。

分类模型

k近邻

一种基于分类方法,通过测量不同特征值之间的距离进行分类。思路是,如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中k通常是不大于20的整数;

通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离:

d(x,y)=\sqrt{\sum_{k=1}^{n}(x_k-y_k)^2}

逻辑斯蒂回归

决策树

无监督学习

聚类

  1. k均值

  2. 基于密度的聚类

  3. 最大期望聚类

降维

  1. 潜语义分析LSA

  2. 主成分分析PCA

  3. 奇异值分解SVD