【免费分享】从平台算法角度讲讲,小红书笔记是如何被推荐的?
我们公司从今年1月份开始接触小红书平台,到目前为止前前后后从小红书薅了大概5.6万免费 流量用户到微信,中途也经历了各种踩坑
遇到了各种王八蛋,不过庆幸的是整体公司业绩也一直持续不断增长。20年进入生财,从生财得到了许多帮助,我也算开了天眼,来生财输出一些 实战经验也算是还愿啦。
前端时间,因为公司小红书业务需要,托朋友重金给我们找了一个业内比较出名的算法工程师 来给我们讲讲小红书平台推荐算法(涉及隐私就不说这个老师的名字啦,用K老师代替),接 下来我尽可能完整的给大家去复述一遍小红书的笔记是如何被推荐的,希望能对大家产生一些 帮助。
-------------------------------------------------------------------------------------------
今天要为大家分享4点内容:
首先介绍小红书目前在使用的推荐算法。
第二点推荐算法怎么让我们批量复制出爆款文章。
第三点是从平台导流到私域,怎么能较大程度避免平台识别?
第四点是基于小红书目前算法,我们猜测的一些冷知识。
====================================================================
1. 了解小红书推荐算法之前 先引入一个概念 机器学习,什么是机器学习呢,简单点讲就是通过计算的手段,利用经验改善系统自身的性能。机器学习就是让计算机从大量的数据中学习到 相关的规律和逻辑,然后利用学习来的规律来预测以后的未知事物。
从目前的公开资料显示,小红书2016年之前文章都是由人工审核,人工精选,然后 决定是否推荐,从2018年以后,正式搭建了全新的算法 ,随着不断优化更迭,21年这套推荐算法已经能够处理千亿级模型,据K老师讲述 最起码5年之内 这套算法不会过时,小红书也会一直继续使用。那在我们确定未来他还会一直延用这套算法的同时,就可以更多的去研究算
2. 在了解了小红书使用的算法后,我们从公开资料找到了小红书的推荐算法逻辑, 一些复杂的公式就不在这里延伸,我尽量说的简单一些,结合我们自己的经验能够让大家直接 可以实操,上手。
推荐算法分为4个部分1.召回 2.排序 3.重排 4.呈现
❶召回(多策略:用户/历史标签笔记等) 小红书会给用户打上不同的标签。比如当有1个用户打开小红书,这个时候就需要5到10篇笔记满足用户的需求,小红书会从它的笔记库里,选取对应的篇数进行呈现。实际运用来看,高峰期需要召回的笔记量多,被选择的概率也会增 加。
❷排序 小红书算法进行机器学习之后,笔记质量也是选择呈现哪篇文章的重要因素之一,那算法是怎么判断出哪篇文章质量好,哪篇文章质量差呢。算法主要的一个特征提取用的是MLP孪 生网络,简单点讲,它判断文章质量主要是根据以前的表现好的文章相似度进行选择,假如A文章火了,B文章和A文章内容,风格等相似度比较高,算法会默认为它也是质量较 高的文章,给b文章做出推荐。
❸重排(笔记多样性) 小红书希望选中相似度低的一组物品,可以组成一个超平行体,它如果它们的特征向量相互正交,即内积为零,则它们的相似度最低,即多样性最大。简 单讲:一个用户喜欢篮球,小红书不可能同时给它推荐5篇篮球文章,他需要保持一个内容多 样性,所以用到了协同过滤,协同过滤的思路是通过群体的行为来找到某种相似性(用户之间 的相似性或者标的物之间的相似性),通过该相似性来为用户做决策和推荐。例如 A喜欢装修, 家具 家电 家居类的内容 B也同样喜欢家具 家电 家居类的内容,通过协同过滤,算法会推荐装修类的内容给B。
那实践操作中怎么产生商业价值呢?A是做家具类的博主,家具类竞争异常惨烈,可以再内容 里加一些装修类的东西,文章也会推荐给相似的人群,换一个赛道获取流量。
❹呈现(点击)
===========================================================
3. 从平台导流到微信,怎么能较大程度避免平台识别。我们之前用了很多方法(谐音,艺术二 维码 拉群,自动回复等等)但是从本质来说还是很容易被CNN算法识别出来,它的一个识别方式,那怎么能较大程度规避平台识别。理论上存在两种方法1.给图片加入噪点,因 为噪点能改变图片的线性数据呈现,CNN会更难识别这类型的图片,类似咖啡厅有背景音乐, 掩盖其他人谈话的声音,让人没法偷听。2.跨行手写:只要是电脑上的字体都会被识别,但是 系统不一定能识别你写的歪歪扭扭的字和。手写,就相当于让“声音”变成方言,斜着写,类似
最后基于对小红书推荐算法的研究 我们有一些猜测,不能当真,大家就当冷知识看就好啦。
1. 小红书文字部分采用的算法是延用了谷歌的BERT,这个算法的极限是能处理256个字,如果小红书没有魔改bert,那从算法来讲 他大概率也只能识别前256个字或者后256个字(正常逻辑是处理前256个字)
2. 我们在小红书公开的特征管理看到有安卓和苹果特征组的区分,同样的发文,有可能苹果手机比安卓手机流量好。
3. 小红书没有养号这个说法。
4. 今年小红书调整过各板块的权重,目前去重这块权重不是很高(导致很多文章图片 字都不换直接发,还是一样会爆。举报另算)
====================================================================
【一个小提醒,不能算是广告】
B 站有小红书的算法 leader 在讲推荐算法,叫王树森,感兴趣的可以看看,对于有算法经验的人来说还是比较浅显易懂的