您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

互联网平台的“算法”被神化了

时间:2021-11-03 12:23:31  来源:  作者:钛媒体APP

文丨互联网怪盗团

在互联网行业,尤其是在投资人心目中,往往存在一种“算法迷信”或曰“技术迷信”:某公司的广告变现做得好,一定是因为有算法;某公司的云计算业务开展的好,也是因为有算法;某公司的游戏用户留存率高,还是因为有算法……

所以,一切用户问题和变现问题都可以通过“技术中台”解决,从google或Facebook挖到的“算法专家”可以构成互联网行业的核心竞争力。与此相对,如果一项业务出了问题,无论是用户增长环节还是商业化环节出了问题,毫无疑问可以归咎于算法不行。

遗憾的是,上述观点是错误的。算法当然很重要。可是如果没有数据,你拿什么去“算”呢?如果把Google、Facebook、字节跳动或阿里巴巴的算法团队划拨给某个路人甲,难道路人甲就可以“冷启动”搞出一个全世界最厉害的互联网平台吗?哪怕是没有接触过互联网行业的人,也不会相信这种疯话——没有数据的算法,就像没有球员的足球战术,是不可能执行的。

互联网平台的算法被严重神化了。算法固然重要,但我们可以毫不客气地说:算法是可以在短期内砸钱搞出来的,但是数据无法在短期内搞出来;头部互联网公司在算法上不会有什么代差,但是在数据丰富程度和可用性方面可能产生代差(注:并不意味着一定有代差)。

在互联网时代,数据堪称土地、劳动、资本后的第四大生产要素,尽管我们常常忽略它,但其重要意义非同一般。更深一步,人工智能比拼的并不是算法,而是数据,“得数据者得天下,得数据者得算法”。互联网巨头在过去十几年呼风唤雨、取得了巨大的收入和利润,不仅仅是因为它们掌握了用户流量入口,更是因为它们掌握了基于用户行为的海量数据。

(就像在《命运石之门》当中,发明时间机器不仅需要天才黑客桥田至,更需要狂气科学家凤凰院凶真、天才少女牧濑红莉栖等一整套实验室体系的配合。)

为什么抖音如此适合游戏及电商广告投放?广告算法好,确实是一个核心因素。例如,抖音对游戏广告主甚至可以以“单个付费用户”为单位结算,甚至可以约定“若用户流失则退款”;抖音、快手均可以将广告主的效果需求(CPA/ROI等)高效地“翻译”成前台CPM需求,快速而灵活地响应广告主的需求。但是,在“算法好”的背后,更深刻的原因是数据积累庞大、可信度高:

  1. 抖音通过用户的滑动、点赞、留言、转发,以及平均观看时长,获得了大量宝贵的用户偏好数据,从而能够贴上各种数据标签。与传统图文信息流相比,短视频给用户贴上数据标签的效率要高得多。
  2. 抖音从2016年开始就建立了一个庞大的内容生态,各式各样的内容非常健全,从而可以让海量内容与海量用户之间互动,产生天量级的数据。其实,抖音在内容运营方面的功力极深,只是往往被人忽视。

反观还处在发展初期的微信视频号,与抖音的差距与其说在于“算法技术”,还不如说在于内容生态——目前视频号的原生创作者很少,MCN生态尚未建立,垂类内容运营也不发达(仅有直播取得了一些成果)。因为内容池太浅,所以无法与用户产生有意义的互动,导致数据深度和可信度不足。要解决问题,恰恰要依靠良好的社区运营和激励机制,去吸引更多、更有特色的创作者持续产生内容,而不是像某些人认为的那样,把推荐算法调教好就够了。

在中国这个特殊的(也是全球第二大的)互联网市场,各大平台对于用户数据的掌握程度,还存在两个微妙的因素:

首先,国内Android/ target=_blank class=infotextkey>安卓平台对用户隐私的保护程度很低,从而允许互联网公司无节制地攫取数据。国内80%以上的用户使用安卓手机,国产安卓生态的用户保护机制几乎形同虚设——如果你禁止某个安卓App读取你的通讯录、调用你的相册和摄像头,很可能你就无法完成安装,也无法使用大部分功能。在这方面,苹果手机堪称模范,甚至允许你像隐形人一样使用各大APP,让对方完全无法辨认你的身份;所以很多互联网平台都讨厌苹果手机。你在媒体经常能看到关于苹果手机如何差劲的黑文,不一定是其他手机厂商发的,很有可能是恼羞成怒的互联网平台发的。

很多安卓APP会定期截取用户屏幕、读取手机相册、读取输入法数据,甚至在用户不知情的情况下操纵摄像头——还记得当年震惊全网的“手机摄像头无声无息升起事件”,以及刚刚发生的“豆瓣删除用户相册图片”事件吗?因为平台可以肆无忌惮地收集用户数据,当然就可以很精准地贴上用户标签。与其说这是算法的功劳,还不如说是侵犯用户隐私的“功劳”。当然,在国内主管部门强调用户信息保护的今天,这一套玩法已经接近了极限。

其次,互联网平台内部各端、各业务的数据需要打通,否则就无法形成合力。为什么字节跳动的算法推荐精准?因为它内部各个产品、各项业务的数据是高度分享的。字节跳动的广告销售人员,可以迅速了解到抖音的某个趋势、某个流量洼地,然后立即对广告主进行推荐,这样广告主当然有投放的积极性。与其说字节跳动是依靠算法崛起的,还不如说是依靠打通技术和销售崛起的,以前的百度也是这样。

这就是近年来互联网公司纷纷强调“数据中台”的原因:与其说“数据中台”象征着一种技术创新,倒不如说它在削平内部山头,把各部门的数据资源最大限度地打通。不过,数据中台未必总能达到目的,因为规矩是人定的。对于历史悠久、内部利益分配复杂的互联网巨头而言,要各个山头分享数据是一个很艰难的任务。所以,像字节跳动、拼多多这样历史较短的公司往往能较好地打通数据,而历史悠久的公司做不到。

讽刺的是,2021年以来,监管部门加强了对平台商家获得用户数据的限制,却反而造成了平台对数据控制权的加强:

例如,对淘宝商家来说,以前可以获得某个具体买家的电话、地址、身份信息,从而可以进行内部分析,还可以主动通过短信等方式拉回流。2021年8月以来,淘宝商家看到的数据都被加密了(其他各大电商平台也在跟进),只有快递员还掌握用户的真实联系方式。虽然这样确实保护了用户隐私,却也造成商家完全受制于平台,很难绕开平台运营私域流量了。

这里就涉及到一个平台经济监管的核心问题:我们对互联网平台加强控制,归根结底是为了有益于用户,同时也应当有利于中小商家。有些事情可能对用户有利,却也加强了平台在产业链上下游的话语权,从而使它们相对于中小企业居于更强势的地位。如何避免这种现象出现?对于全世界的监管者来讲,都需要摸着石头过河。

在本文的最后,我们想集中探讨一下5G时代对数据的影响。坦白说,如果5G普及,互联网巨头对用户数据的控制可能提上一个新的台阶:

首先,数据维度大幅提升,5G将推动万物互联,5G时代连接数量达100万/平方公里(即每平方公里有100万对数据连接存在),是4G时代的100倍。根据AT&T的数据,2020年全球物联网的连接数达到500亿,其中物与物(设备对设备)的连接数占比80%。一方面,联网设备数增加,将线上和线下数据进一步打通;另一方面,物物之间的连接数大幅提升,数据的维度和延续性都有了实质提升。

其次,5G基站将实现更加精准定位。由于5G穿透性不如4G,需要更多的5G基站完成原来4G信号塔的作用。在基站密度一定情况下,5G可以将基站定位精度提升至1m,并且更多5G基站在室内,室内定位效果也将增强。届时,互联网巨头念念不忘的“对用户位置的精确掌控”将成为现实,达到厘米级的掌控也不是不可能的。

可想而知,进入5G时代,互联网行业的海量数据会变成天量数据,数据的精准度、可用性、灵活性也会大幅提升。举两个很简单的例子:

  1. 如果智能家居真能成为主流,就无异于在移动互联网之外再造了一个“家居互联网”,用户从早上起床到晚上就寝,乃至睡眠中产生的数据,均将被纳入互联网平台的体系。
  2. 如果5G基站定位精度达到1米以内,传说中的“室内LBS服务”将成为现实,线下零售商将能够绘制出精准的“零售热力图”,从而进行一系列O2O数据合作(例如通过用户的行动细节向其推送商品)。

由此产生的用户隐私等法律、道德问题也是不容忽视的。这也就是各国监管部门要赶在5G大规模商用的初期,纷纷加强对平台经济的控制、对用户个人隐私的保护的原因。

当然,按照某些互联网平台的观点,中国用户不重视个人隐私,更愿意牺牲个人数据主导权去换取生活便利,所以主管部门也不应该严厉限制对用户数据的刺探和使用。你赞成吗?反正我不赞成。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App



Tags:算法   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Tags: 算法  点击:(1)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  Tags: 算法  点击:(7)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15  Tags: 算法  点击:(16)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  Tags: 算法  点击:(24)  评论:(0)  加入收藏
基于算法的业务或者说AI的应用在这几年发展得很快。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】
2021-11-08  Tags: 算法  点击:(32)  评论:(0)  加入收藏
随着注册制的加速推进,新股越来越多,截止到今天A股上市公司的总数高达4500余家,A股一直就是重融资,轻投资的市场,而上市公司发行可转债这种再融资的(圈钱方式)是最能让普通投资者接...【详细内容】
2021-11-05  Tags: 算法  点击:(97)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  Tags: 算法  点击:(37)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  Tags: 算法  点击:(36)  评论:(0)  加入收藏
每个人都有过这样的经历:打开手机准备回消息或打电话,一看到微信图标右上方的小红点,于是忍不住先打开微信;看完微信,不知不觉又被另一个App牵引,直到关闭手机屏幕才发现自己早已...【详细内容】
2021-11-03  Tags: 算法  点击:(30)  评论:(0)  加入收藏
文丨互联网怪盗团在互联网行业,尤其是在投资人心目中,往往存在一种“算法迷信”或曰“技术迷信”:某公司的广告变现做得好,一定是因为有算法;某公司的云计算业务开展的好,也是因为...【详细内容】
2021-11-03  Tags: 算法  点击:(25)  评论:(0)  加入收藏
▌简易百科推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Java技术那些事    Tags:时间轮   点击:(1)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  量子位    Tags:蒸馏法   点击:(9)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  老师明明可以靠颜值    Tags:算法   点击:(7)  评论:(0)  加入收藏
1. 基本概念希尔排序又叫递减增量排序算法,它是在直接插入排序算法的基础上进行改进而来的,综合来说它的效率肯定是要高于直接插入排序算法的;希尔排序是一种不稳定的排序算法...【详细内容】
2021-12-22  青石野草    Tags:希尔排序   点击:(6)  评论:(0)  加入收藏
ROP是一种技巧,我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符,在本次getshell中,还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】
2021-12-15  星云博创    Tags:栈迁移   点击:(19)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15    晓掌柜丶韶华  Tags:排序算法   点击:(16)  评论:(0)  加入收藏
在了解golang的map之前,我们需要了解哈希这个概念。哈希表,又称散列表(Hash table),是根据键(key)而直接访问在内存储存位置的数据结构。也就是说,它通过计算出一个键值的函数,将...【详细内容】
2021-12-07  一棵梧桐木    Tags:哈希表   点击:(13)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  小心程序猿QAQ    Tags:雪花算法   点击:(24)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  华章科技    Tags:排序算法   点击:(37)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  有AI野心的电工和码农    Tags: KMP算法   点击:(36)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条