论淘宝搜索推荐算法排序机制及2021年搜索变化的方向

时间：2020-12-29 12:02:09 来源：作者：

【写在前面】淘宝搜索引擎至今已经迭代了多轮，搜索排序也已经从最开始的统计模型升级到机器学习模型；2010年前是没有标签概念的就是基础标签这些都没有，随着算力的增强，2010年后开始挖掘用户的基础标签，发展了三年到2013年才开始尝试使用大规模机器学习和实时化特征那个时候提出了个性化搜索；到了2015年推荐算法的方案才真正融合进搜索体系中，可以那么说2015年前淘宝搜索引擎都是在使用最开始的统计模型，统计模型最核心的就是关键词坑产权重。

但是大家有没有想过为什么2016-2017年的两年却是各种“黑搜”盛行的年份，又为什么到今天基本消失殆尽？

最根本的原因就是搜索排序从统计算法模型到机器学习模型的转变期。

说白一点，如果这个时候不收割就没有收割的机会了，因为统计模型即将退出历史舞台。

所以各路大神各显其通各种把统计模型算法中的影响元素放大，因为是统计算法不管是哪个点，点击率也好、坑产也罢，只要一个项做的很好搜索很容易起来。

那两年成了中小卖家狂欢盛宴，很多大神的烟火也很旺盛。

时至今日推荐算法第三代使用以后加上疫情的影响做个鲜明的对比，真的是感慨万千。

是淘宝真的没有流量了吗？是电商生意真的不好做了吗？还是大家的思维没有转变，还停留在2016-2017年的黑搜盛宴中不愿醒来？

2017年、2018年、2019年是淘宝推荐算法迭代最快的三年，每一年算法都升级都是不一样的，总体来说2019年9月份以前统计算法模型影响因素还很大的，2019年下半年开始第三代推荐算法以后，全面真意义的进入以机器学习模型为核心的推荐算法时代。

各路大神也不灵验了，加上百年疫情的影响，很多“大神”的遮羞布也就漏出来了。

基本以统计模型为主，搞培训的基本没有了声音、典型的就是坑产玩法。

如果你现在还能看到，基本可以判定他不是在做培训而是在做刷单，一定会推荐你用资源，而且资源多么的安全。

刷坑产递增真的没有效果了吗？也不是我前面文章就给大家提过方向：“不是不行了，只是不能从坑产的角度再思考，而是从改变竞争环境的角度去思考，用补单改变竞争环境，改变场、会有新天地，任何的手段都要服务于商业本质”。

正文

概述统计算法模型时代。

统计模型时代搜索引擎的排序是最原始的倒排思维，只要你类目不放错、关键词比较精准就可以拿到很大的流量，那时候产品少需求大，只要通过上下架的优化就可以让产品上首页。

话有说过来了2016年以前就没有坑产玩法吗？黑搜效果就不好吗？其实斐然哪个时候“坑产”是最核心机密，大家都闷声发大财谁来教你啊，哪个时候教你的最多就是类目优化，关键词优化，几乎所有的优化都围绕着关键词，电商老人回忆一下你哪个时候是不是就是得关键词者得天下。

有谁告诉你玩坑产，关键词找好了生意也就来了。哪个时候就是懂坑产也没人给你刷啊，大规模补单也就出现在黑搜盛行的时期。

为什么说得关键词者得天下呢？

搜索关键词是用户当前意图最直观表达，也是用户表达意图的最直接的方式。

来搜索的用户购物意图最强、成交意愿也最强就是现在搜索也是转化率最高的流量来源。

统计时代关键词背后直接挂靠的就是类目商品，只需把类目和关键词分词做好就行了，哪个时代出现最多的黑马一般都是类目机会，关键词机会，黑科技机会。

最根本的还是商业本质，哪个时候产品少需求大，很多现在的类目都没有，自己都创找一个类目出来，现在想想是什么概念。

记得哪个时候类目哪怕错放，搜索都可以来，只要你商品的点击反馈好就是放错类目都不怎么影响，现在你试试？

对于搜索类目是搜索的基石。

哪个时候就可以颠覆，背后就是商业逻辑，用户行为数据好就行。

但是无论怎么发展搜索永远离不开关键词，就如上述说的关键词是用户表达意图的最直接的方式，就是现在消费者的搜索行为或者购买行为发生根本性改变。

搜索依然是根据消费者身上的行为数据及关键词来判断需求，这就是机器学习模型时代。

机器学习模型时代--推荐搜索算法。

现在的商品体量以及消费者购物行为的丰富性，统计算法已经不能满足搜索的本质要求。

所以现在搜索引擎开始发展深度学习模型更精细的建模--推荐搜索算法，搜索排序更加智能化。

在此重点论述推荐搜索算法，

前面有提到2017、2018、2019、是推荐搜索算法真正意义发展的三年，三年三个系统版本一年一换，以至于很多电商人摸不清头脑了。

推荐搜索算法和统计算法模型最大的不同，在于“Query”的处理能力和算法上有了召回机制

简单表示推荐算法的流程步骤：

一：会对搜索关键词进行分词、改写的处理进行类目预判

二：会根据用户信息也就是用户之前的行为数据记录及预估的性别、年龄、购买力、店铺偏好、品牌偏好、实时行为等信息进行存档

三：会根据搜索用户信息建立好倒排的搜索引擎依据搜索词，类目预测信息进行召回，粗排，精排最终将把权重分数最高的TOP N的商品搜索排序呈现此搜索用户

依据分词、类目召回，根据用户行为数据信息进行个性化精准排序是推荐搜索算法的最大特点。

也就是说在第一关召回阶段基本和统计模型时代的优化渠道是一样的，核心是标题分词和类目，现在最大的不同就是会依据用户信息进行推荐精排，这就是标签和精准人群标签画像优化的最根本意义。

现在为什么一直谈标签，谈人群标签画像了吗？“入池”其实就是在匹配真实购买消费者用户信息，通过直通车测试判断确定人群也是通过性别、年龄、购买力，搜索偏好来优化匹配真实购买消费者。

召回机制：

通过构建子单元索引的方式来加速对商品的检索，这样就不用遍历平台上亿级所有商品，这个索引就是搜索引擎中的倒排索引，利用倒排索引对商品进行初筛的过程就是召回阶段。

在这个阶段，不会进行复杂的计算，主要根据当前的搜索条件进行商品候选集的快速圈定。

在此之后，再进行粗排和精排，计算的复杂程度越来越高，计算的商品集合逐渐减少，最后完成整体的排序过程。

主要召回路径分为：

一：词召回

二：向量召回

这些都是商业机密了不便阐述，有兴趣可以学习一下我们线上会员课程“标签叠加玩法6.0”就是基于词和向量召回的底层逻辑应用于实战落地的课程。

下一个阶段就进入了粗排，粗排又是受哪些因素影响：

粗排作为召回之后的第一道门槛，为了用户体验希望用一个耗时低的模型对商品进行快速排序和筛选，第一关就要过滤到大部分不适合这次搜索词请求的商品。

要想实现这个目的就必须先搞清楚影响粗排得分因子

一：类目匹配得分及文本匹配得分，

二：商品信息质量（商品发布时间、商品的级别、商家级别）

三：商品组合分数

点击得分

交易得分

卖家服务商业分数

在粗排框架下，系统粗排算法会根据商品的类目预测分数对每个商品进行类目分档，位于不同档位的商品会得到不同的类目分数，与搜索关键词的相关性越高，那么该类目下的商品得分就会越高，同样文本匹配分数及商品信息质量，商品组合分数做了相应的分档处理进行优化，这就是粗排过程中的影响因素及优化流程。

最后就是精排，搜索排序的主要目标是高相关性、高个性化精准性。

每个用户的喜好不同，系统会根据每个用户的Query结合用户信息进行召回。然后通过粗排之后，商品数量从万级别下降到千级别。

千级别的商品经过精排后会直接展示给用户，搜索过程中商品集合的思维及具体变化如下图

前面的召回、粗排主要是解决主题相关性，通过主题相关性的限制，先缩小商品集合和我们线上会员课程标签叠加玩法中的核心思维“聚焦”异曲同工。

在精排阶段系才是真正系统推荐算法发挥真正威力的时候，应该基于用户行为反馈快速进行机器学习建模，判断用户的真实性，精准性和可持续可控制性。

这里插一句为什么现在所谓的玩法或者黑科技都是昙花一现，核心就是系统算法模型---机器学习模型，系统分析出用户有问题，不精准，不稳定，可维持性差就会进行快速调整。

也就是说你即使发现漏洞或者研究出快速有效的方法，系统也会根据你精排阶段的用户人群行为进行快速的分析学习建模，发现模型有问题你的玩法也就完蛋了。

你猜猜机器学习建模的速度有多快？

想玩黑的趁早死了这条心吧。

现在利用的搜索排序模型主要是：

CTR模型和CVR模型，具体模型太复杂也没必要深入，但是你要知道影响这两个模型最根本因素就是用户行为数据。

真的假不了，假的也真不了；算法模型越来越智能化，算法越来越强大只有回归到商业的本质才能真正解决算法模型背后真正想解决的问题，算法基于商业逻辑。

2021年搜索会向哪个方向变化：

2020年对电商人及阿里都是不平凡的一年。2020也是阿里从神坛被拉下来的元年，现在对阿里是各种黑。

基于中小卖家的流失确实是阿里必须正面面对的现实。

如何让中小卖家回流或者留在平台上，搜索应该怎么做？

搜索肯定会基于三方考虑，买家，卖家和平台自身，现在市面上又开始鼓吹坑产搜索逻辑，坑产的妖风又要起，基于推荐搜索算法逻辑来谈一下这个问题。

为什么坑产思维，是打不死的小强，每次“危机”都会跳出来。

以统计模型为主的坑产时代是从淘宝建立2003到2015年一直在用的搜索算法模型长达13年之久。

同时是淘宝和中国网民红利的野蛮增长时期，统计算法模型让太多的电商人赚到钱了。

加之十年奴役思维已经习惯了、在电商圈你说坑产玩法一定有人信，讲其他未必被人认同。这也是为什么我们夹着尾巴发展的原因，时间真的可以证明一切、无需多言，做好自己。

习惯性思维加上特殊时期的赚钱蝴蝶效应，让大多数电商人还活在历史的旧梦里。

确切的说，统计算法模型真正的废除是在2019下半年。

有同学会说坑产永远有效，我也这样认为。

永远有效的是爆款模型坑产权重驱动和统计算法模型中的“坑产”排序不是一回事。

爆款模型中的坑产因素是永远有效的，这个永远不变。

但是怎么有效的加上这个爆款模型坑产权重，不是你去模仿下购物意图去打个标、然后成交那么简单的事情。

坑产玩法在2021年肯定不行，淘宝肯定不会把现在的算法系统，换成15年前的。

基于三方利益：

买家的体验

卖家的收益

平台的发展

搜索肯定还是会向高精准性和高可控性发展；以标签为核心的用户标签画像依然是影响流量精准度的根本因素这一点不会变。

必须要从标签的角度去思考和优化种子人群画像，

通过种子人群画像向相似人群扩展再到叶子类目人群，再到行业偏好人群最后到关联类目人群进行扩展，这也是流量放大的流程通道。

基于推荐搜索算法逻辑：

在精排阶段应该算法更强大精准度更高，转化率应该会有所提高，持续性稳定性应该更强。

基于中小卖家流逝的现状，做精排阶段的优化不是中小卖家能简单触达到的。

如果推荐算法要放水从搜索排序阶段中会出现在哪个阶段？

个人判断

一是召回阶段

二是粗排阶段

上述有提到召回阶段的算法简单覆盖商品是万级，排序规则也比较简单，如果针对中小卖家在召回阶段提高精准度就尤为重要。

如果在这个万级的商品库中比如上下架权重提高让中小卖家都有机会上首页，从子单元索引召回中找机会。

或者基于中小卖家新品及中小卖家的店铺层级进行针对搜索推荐特别优先权让中小卖家的新品在低销量状态下进行展现，一个锦囊算法就可以实现。

让中小卖家都有上搜索首页的机会，先不调用用户信息就直接给打开首页展现权这可能是对中小卖家最大的支持。

根据召回阶段的用户行为数据在粗排阶段在占比例融入“用户信息”也就是标签影响。

在初始召回阶段，就看类目和分词权重就看商家的主图“场景”反应的背后人群反馈，再以系统加以引导，给中小卖家真正可借鉴的流量方向和成交方向。

谁疯狂刷单就直接关小黑屋，懂刷单优化竞争场景，从优化人群的角度除外，适当放宽处罚。

通过召回阶段，得到的用户信息去影响粗排结果。

这个阶段用户信息权重占比也不能太大，不能让流量卡的太死。

说白了就看在每个搜索排序阶段“用户信息”也就是用户标签对搜索的影响权重多大的问题。

这个方向我个人观点是极有可能的。

上述是我对搜索变化的一些判断，并不做参考。

如果你是搜索部门负责人，你会怎么思考这个问题？

Tags：推荐算法点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

阿里飞猪推荐算法探索实践

导读：本文的主题为阿里飞猪推荐算法探索实践，首先会介绍电商背景下主流推荐技术的发展，例如基于全空间的CVR预估技术的发展历程等 ( ESMM / ESM^2 / HM^3 )；接着会重点结合旅行...【详细内容】

2021-10-21　　Tags: 推荐算法点击:(56)　　评论:(0)　　加入收藏

淘宝详情页分发推荐算法总结：用户即时兴趣强化

商品详情页是手淘内流量最大的模块之一，它加载了数十亿级商品的详细信息，是用户整个决策过程必不可少的一环。这个区块不仅要承接用户对当前商品充分感知的诉求，同时也要能肩负起其他来源导流流量的留存，最终尽可能地激活...【详细内容】

2021-08-04　　Tags: 推荐算法点击:(89)　　评论:(0)　　加入收藏

国外知名互联网公司的系统设计和推荐算法汇总

架构头条作者 | theinsaneapp.com译者 | 张健欣策划 | 万佳今天，我们会讨论一些不同的东西，例如 Spotify、YouTube、Signal Messenger、Amazon 等科技巨头的推荐算法，以及像 U...【详细内容】

2021-07-15　　Tags: 推荐算法点击:(121)　　评论:(0)　　加入收藏

阿里1688直播推荐算法实践

导读：近年来，电商呈现内容化的趋势，以直播和短视频为首，内容化提升了用户体验，增加了平台收益。作为电商的重要流量入口，推荐算法除了应用于商品，现在也被应用于直播场景。我们将以阿里的B类电商网站1688为例，分享直播推荐相...【详细内容】

2021-04-21　　Tags: 推荐算法点击:(287)　　评论:(0)　　加入收藏

论淘宝搜索推荐算法排序机制及2021年搜索变化的方向

【写在前面】淘宝搜索引擎至今已经迭代了多轮，搜索排序也已经从最开始的统计模型升级到机器学习模型；2010年前是没有标签概念的就是基础标签这些都没有，随着算力的增强，2010年后...【详细内容】

2020-12-29　　Tags: 推荐算法点击:(220)　　评论:(0)　　加入收藏

一直抖音一直爽？这一切的背后都是因为人工智能推荐算法

指尖在抖音上划过，满屏幕的颜值少女，满屏幕的乡村野趣，满屏幕的都市传奇，满屏幕的生活乐趣。在碎片化的时间里，我们拿着手机，看着屏上的视频，充满了视觉的欢乐与笑语。手指迅速地划...【详细内容】

2020-09-28　　Tags: 推荐算法点击:(199)　　评论:(0)　　加入收藏

饿了么推荐算法演进及在线学习实践

本次分享的主要内容包括以下三个方面:首先是介绍推荐业务背景，包括推荐产品形态及算法优化目标；然后是算法的演进路线；最后重点介绍在线学习是如何在饿了么推荐领域实践的。...【详细内容】

2020-09-21　　Tags: 推荐算法点击:(88)　　评论:(0)　　加入收藏

个性化推荐算法（推荐系统）概要

读者读完本文后，你会知道每类范式常用的算法有哪些、实现的思路是什么、以及常用的应用场景。本文也可以作为读者落地推荐算法到真实推荐场景的参考指南。一、推荐算法与产品...【详细内容】

2020-08-31　　Tags: 推荐算法点击:(146)　　评论:(0)　　加入收藏

一文了解深度推荐算法的演进

近些年，随着深度学习理论，GPU 和 CPU 等计算机硬件，TensorFlow、Caffe、PyTorch 等算法平台的发展，深度学习算法在个性化推荐、计算机视觉、自然语言处理、语音识别等领域大放光...【详细内容】

2020-08-04　　Tags: 推荐算法点击:(52)　　评论:(0)　　加入收藏

今日头条算法原理—— 3分钟了解今日头条推荐算法原理

今天，算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配，但同时，算法也开始面临质疑、挑战和误解。今日头条的推荐算法，从2012年9月第一版开发运行至今，...【详细内容】

2020-06-22　　Tags: 推荐算法点击:(65)　　评论:(0)　　加入收藏

▌简易百科推荐

如何从 Kafka 看时间轮算法设计

前言Kafka 中有很多延时操作，比如对于耗时的网络请求（比如 Produce 是等待 ISR 副本复制成功）会被封装成 DelayOperation 进行延迟处理操作，防止阻塞 Kafka请求处理线程。Kafka...【详细内容】

2021-12-27　　Java技术那些事　　　　Tags:时间轮　点击:(1)　　评论:(0)　　加入收藏

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

博雯发自凹非寺量子位报道 | 公众号 QbitAI在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。这就...【详细内容】

2021-12-24　　量子位　　　　Tags:蒸馏法　点击:(9)　　评论:(0)　　加入收藏

定位以及地图重建算法汇总

分稀疏重建和稠密重建两类：稀疏重建：使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3：工程地址在： http://webdiis.unizar.es/~raulmur/orbslam/ DSO（Direct Sparse Odometry）因为...【详细内容】

2021-12-23　　老师明明可以靠颜值　　　　Tags:算法　点击:(7)　　评论:(0)　　加入收藏

图解希尔排序，超详细非常好理解

1. 基本概念希尔排序又叫递减增量排序算法，它是在直接插入排序算法的基础上进行改进而来的，综合来说它的效率肯定是要高于直接插入排序算法的；希尔排序是一种不稳定的排序算法...【详细内容】

2021-12-22　　青石野草　　　　Tags:希尔排序　点击:(6)　　评论:(0)　　加入收藏

ROP和栈迁移的探究

ROP是一种技巧，我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符，在本次getshell中，还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】

2021-12-15　　星云博创　　　　Tags:栈迁移　点击:(19)　　评论:(0)　　加入收藏

一起学排序算法 - 冒泡排序

一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】

2021-12-15　　　　晓掌柜丶韶华　　Tags:排序算法　点击:(16)　　评论:(0)　　加入收藏

哈希表原理

在了解golang的map之前，我们需要了解哈希这个概念。哈希表，又称散列表(Hash table)，是根据键(key)而直接访问在内存储存位置的数据结构。也就是说，它通过计算出一个键值的函数，将...【详细内容】

2021-12-07　　一棵梧桐木　　　　Tags:哈希表　点击:(13)　　评论:(0)　　加入收藏

面试官：讲讲雪花算法，越详细越好

前面文章在谈论分布式唯一ID生成的时候，有提到雪花算法，这一次，我们详细点讲解，只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称，一般的雪花大约由10^19个水分子...【详细内容】

2021-11-17　　小心程序猿QAQ　　　　Tags:雪花算法　点击:(24)　　评论:(0)　　加入收藏

终于有人把排序算法讲明白了

导读：在大数据时代，对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要，因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时，需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】

2021-11-04　　华章科技　　　　Tags:排序算法　点击:(37)　　评论:(0)　　加入收藏

字符串查找之 KMP算法

这是我在网上找的资源的一个总结，会先给出一个我看了觉得还行的关于算法的讲解，再配上实现的代码： Original author: Bill_Hoo Original Address： http://blog.sina.com.cn/s/bl...【详细内容】

2021-11-04　　有AI野心的电工和码农　　　　Tags: KMP算法　点击:(36)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为