话说蜉蝣君有事去移动营业厅办理,具体办什么业务早都忘记了,却唯独对多年以前那一场面红耳赤的的争吵记忆犹新。
那个时候,刚刚经历了2G时代手机的普及,3G还在神州大地蓬勃发展中。
主角是一个矮胖的大叔,穿着得体,头发整齐,浑身上下打理地干净利落。
他挥舞着当时刚刚兴起的大屏智能手机,愤怒地质问到:“每个月套餐这么多流量,结果才几天就用光了,这到底是怎么回事?”
营业厅的小姑娘还是很镇静的:“先生您好,非常抱歉给您带来不便了。请问您一般用手机上网都做些什么呢?”
“呃,就是看小说,看图片,听音乐......”
“先生,浏览文字,和看图片或者听音乐消耗的流量是不一样的,图片和音乐用的流量会多一些......”
大叔很不耐烦地打断了小姑娘:“打电话都是按照分钟来收费的,上网为什么不一样?你就明明白白地告诉我,这些流量到底能用多长时间?”
“先生,这个实在给不出来,看不同的图片,听不同的音乐,或者手机信号的好坏不一样的话,消耗的流量也是不一样的。”
大叔怒不可遏:“别净扯那些没用的,你就直说,我这些流量到底能用几天?”
到了这里,蜉蝣君感觉到,这场争吵已经进入了死胡同。任凭小姑娘怎么解释,这个大叔应该也很难理解流量的计量和消费的逻辑。
时代的潮流就是如此加速前进,大批的新概念层出不穷,冲击着其中的每一个人。大多数年轻人觉得这一切都是如此的理所应当,而中老年人却不得不在困惑中强迫自己习惯。
他们更习惯于像“苹果多少钱一斤”中的“斤”这样的看得见摸得着的单位。就算是无形的服务,比如打电话两毛一分钟,这里面的概念依然是十分熟悉,非常易于理解的。
而手机上网所消耗的“流量”到底指的是什么呢?流量的计量单位“兆”到底代表了什么?单位前面的数字的大小是明确的,但这个单位是如此的抽象。
为了便于理解,我们可以把网络,不论是2G,3G还是4G或者5G想象成一个信息的仓库,这个仓库通过空气中无形的管道连接到我们的手机,源源不断地把信息输送到我们的手机里。那怎么度量信息的多少呢?这就要用到“流量”这个词了。
我们上网行为,不论是浏览网页,还是看图片,听音乐,或者看电影,本质上就是信息的交换和获取的过程,获取到的信息越多,消耗的流量也就越大。
一个概念的解释,往往又会牵扯出更多的概念。为了解释“流量”这个概念,我们不得不引出了“信息”这个词。好在大家对这个词时非常熟悉的。
那么到底什么是信息呢?
首先看看汉典的解释:音信,消息。再来看看来自《三侠五义》中的一个示例:“听说智化求见,必是丈夫有了信息,连忙请进。”这个解释似乎非常直白,但又总有些说不清道不明只能意会无法言传的感觉。
如果我们再追问一句:既然信息是消息的意思,那么,消息到底是什么意思呢?如果再查词典的话,我们将看到解释:消息就是信息的意思!这么互相解释,最终还是不清不楚。
我们再来看看小米手机董事长雷军关于信息的说法:
“投身信息产业的怀抱快三十年了,我有时也在想:信息何以会具备如此强大的力量?它的力量来自哪里?我们又该如何驾驭这一力量?
在这三十年间,信息极大地释放了人类的能量,它所创造的价值超过了之前五千年的财富总和,但“信息”依然是个大家耳熟能详却又含义模糊的词。
信息是人的镜子,它在技术更新与模式兴替中展现出变化万端的色彩。
但我们回视人的心灵,却发现它在千百年来并没有太多的变化。
科技的互联网不能描述信息的全部,信息只有作用于思维,才能显示出强大的力量。”
雷军的这段话反映出了很多人对信息的理解和困惑。从中可以看出,虽然信息这个词汇在日常生活中无处不在,但要说清楚信息是什么,却并不容易。
解释清楚“信息”是什么尚且不易,要度量它就更不容易了。
时代的发展,不断呼唤着通信理论奠基人的诞生。
2019年,信息论的创始人香农诞辰103周年。和其他学科的不同之处在于,别的学科创始人是发明了一个新的起点,而香农在创立信息论的时候,直接宣告了它的终点。
克劳德·香农
在经典信息论框架内,一切都逃不出香农定理的范围。信息理论的大厦已经建成,后人只能在工程应用上努力。当其他人还在拼尽全力爬山的时候,香农已在山顶欣赏美景。
克劳德·香农于1916年出生于美国,是爱迪生的远房亲戚。他于1940年获得麻省理工学院数学博士学位,随后加入贝尔实验室数学部。
在1948年和1949年,香农发表了《通信的数学原理》和《噪声下的通信》这两篇具有深远影响的论文。
在这两篇论文中,香农阐明了通信的基本问题,给出了通信系统的模型,提出了信息量的数学表达式,并解决了信道容量、编码等一系列基本技术问题,成为了信息论的奠基性著作。
那么,香农是怎样解释信息的呢?
首先,信息蕴藏于的不确定性之中。试想,在美剧《权力的游戏中》,保护布兰的阿多只会说一个词:“阿多!”,任何跟他的交流,只会得到一声“阿多!”,不会有任何变化。因此这里面没有任何不确定性,也就不传递任何信息。
美剧《权力的游戏》中的阿多,只会说:Hodor这一个词
然后,所有不确定的事物都有其发生的概率,信息是这些概率之和(这是简化说法,精确描述需要用到后面的公式)。
以抛硬币这个最为简单的随机事件为例,如果是正面向上,标记为0,反之如果是反面向上,则标记为1。
仅通过常识即可得出,0和1的概率都为二分之一(0.5),它们的概率之和就是1。于是,香农称:这个事件里面蕴含的信息量是1比特。
注意,大家耳熟能详的“比特”这个概念就此出场!这个词是香农首创的,英文全称是“Binary digit”,缩写为bit,也就是“二进制数字”的意思。
为什么是二进制呢?因为它最简单,只含0和1这两个数字,就像硬币的正反面一样,表达了像抛硬币这样的宇宙最基本的事件。
而更复杂的事情,都可以用大量这种简单的事件来叠加表示。
香农甚至创造出了一个公式来度量信息的多少:
香农的信息熵公式
上面的公式过于复杂,本文不进行详细解释具体的计算过程。
据此公式可以计算出,一个英文字母含有的信息量是4.7比特。也就是说,采用5个二进制数字,就可以表示所有的英文字母。
这是显而易见的,因为5个二进制数字共有32种组合,而英文字母共有26个。
通过上面这个公式,香农把热力学中的“熵”这个概念引入了通信系统,称之为“信息熵”。
那么,到底什么是熵呢?
初中物理老师教导我们:物质是由分子组成的,这些分子无时无刻不在进行着杂乱无章的随机运动,温度越高,运动也就越激烈,物体将会从固体融化为液体,直至沸腾为气体。
温度,分子运动与熵
假如我们把一滴墨汁滴入水中,由于分子的相互运动和碰撞,就会看到黑色迅速地弥散开来,直到整个液体都被染成黑色为止。
拿铁咖啡中的熵
从泾渭分明到一片混沌,就是一个混乱程度不断增加的过程,而且这个过程是不可逆的。
想象一下,你无论怎样摇动那瓶被墨汁染黑的水,也无法让它恢复到最初清水和墨汁界限分明的状态。
“熵”这个概念正是用来表征一个系统的混乱程度的。
香农无疑是从中得到了灵感:既然信息蕴含在充满不确定性和出人预料的混乱当中,那么也就可以用“熵”这个概念来衡量。
于是他把上述自己定义的公式成为“信息熵”,传递信息的符号的不确定越高,计算所得的熵就越大,蕴含的信息就越多。
这个信息熵的结果,就是用二进制数字:“比特”来表达的。
与此同是,另外一位顶级科学家,同时也是人工智能的开山祖师:阿兰·图灵在苦思冥想自己的计算设备,该设备只是在头脑中构思的,后来被称作图灵机。
图灵机
这个假想的机器使用纸带作为输入输出,纸带是无限长的,并且机器每次只能读取并处理纸带上的一个符号,然后基于一定的规则,这个机器就能表达一切事物并能处理所有计算!
图灵机的纸带和控制
为了简单起见,图灵使用的符号也是二进制的0和1。图灵机的构想,奠定了电子计算机的理论基础,也证明了二进制正好也是最适合计算机系统的。
二进制码流
并且,二进制也是最简单有效的机器语言,可以用电路的通断,高电平和低电平等状态非常方便地表示0和1,因此二进制成为了行业的标准。
2019年7月15日,英国央行英格兰银行宣布,图灵将成为英国50英镑新钞人物,以表彰其对今天人们生活方式产生的巨大影响。这一殊荣堪比英国女王。
图灵荣登50英镑纸币
在多位科学巨人的努力下,这些由0101组成的二进制符号串也就理所当然地成为了信息传输,处理以及存储的最小计量单位,其中每一位就是一个比特(bit),简写为小写的b。
实际使用中比特这个单位还是太小了,因此,以2的10次方 (也就是1024)为步长,又定义了以下的一些单位:
Kbit—千比特,也就是1024bit
Mbit—兆比特,也就是1024Kbit
Gbit—吉比特,也就是1024Mbit
……
后面还有更大的单位,每一级乘以1024就可以了。但我们的生活中最常用的就是上述的这些,而且常人也已经无法直观地感受到这些单位能大到什么让人吃惊的程度。
我们经常挂在嘴边的一些话,比如5G的小区峰值速率可达20Gbps,这里面的Gbps就是Gbit每秒,含义也相当直观:每秒可以传输20Gbit的信息数据!
在信息储存和处理时,业界一般都是以8位为一组进行存储或者处理,这就叫做8位组,或者字节。字节的英文名为Byte,一般简写作大写的B。
和比特类似,实际使用中字节这个单位也太小,因此,也以2的10次方 (也就是1024)为步长,又定义了以下的一些单位:
KB—千字节,也就是1024B
MB—兆字节,也就是1024KB
GB—吉字节,也就是1024MB
TB—太字节,也就是1024GB
PB—皮字节,也就是1024TB
EB—艾字节,也就是1024PB
ZB—泽字节,也就是1024EB
YB—尧字节,也就是1024ZB
下面我们来看看,一些我们常见的事物,到底含有多少信息,占用多少数据量。
1、文字
众所周知,英文字母有26个,理论上5比特就可以全部表示。且慢,我们刚才说的是小写字母,那大写字母,阿拉伯数字,标点符号怎么办?正好,一个字节有8个比特,含有256种组合,也就可以表示所有的英文大小写,数字,标点和控制字符了!
这就是著名的ASCII码表,如下图所示:
ASCII码表
中文的情况要比上面的英文复杂一些。因为中文并不是基于字母的拼音文字,而是由大量各不相同的字组成。
康熙字典共收录汉字47035个,实际汉字总体数量达到了惊人的近10万个!这种情况下,用8个比特来编码汉字显然是远远不够的。
实际使用中,常用汉字在UTF-8编码下,一个汉字占用3个字节(Byte),也就是用24比特来表示。不常用汉字甚至占到了4个字节。
字母“A”和汉字“中”的编码
红楼梦共有731,017个汉字,算下来就有2193051个Byte,在不考虑存储压缩算法的情况下,约有2MB大小。
这个数据在今天看起来很小,在曾经一块软盘只有1.4MB大小的时代也是庞然大物。
泱泱巨著《红楼梦》
2、图片
那么图片呢?最主流的图片格式是位图。什么叫位图呢?我们只需要把图片放大即可看出端倪。如下图所示,美女细腻的脸庞不再光滑,而是呈现为一个一个不同颜色的小方格。
位图是由像素组成的
所谓位图,也叫bitmap,实际上是由很多“带有颜色的点”组成的。这些点就是图像显示的基本单位,也就是我们放大图像之后看到的小方格,称为“像素”。
我们通常说一幅图片的大小,例如是1920×1080,就是长度为1920个像素,宽度为1080个像素点。乘积是2,073,600,也就是说,这个图片是两百万像素的。
每个像素必须要有颜色,才能组成缤纷绚丽的图片。那么,这个颜色,又该如何表示呢?
物理大神牛顿告诉我们,任何颜色,都可以通过红色(Red)、绿色(Green)、蓝色(Blue)按照一定比例调制出来。这三种颜色,被称为“三原色”。
光学三原色:红绿蓝
在计算机里,红、绿、蓝也被称为“基色分量”,分别计作R,G,B,每种颜色都用8个比特来表示。
那一共能表达多少种颜色呢?每种颜色都有2的8次方,也就是256个等级,三种颜色混合起来,就有256×256×256=16,777,216种组合,因此也简称为1600万色。
RGB 24位色
而一个像素的3个颜色共用24个比特来表示,因此,这种方式表达出来的颜色,也被称为24位色。
当前,主流手机的后置摄像头是1200万像素,现在我们来算一算,在没有进行压缩的情况下,一张1200万像素的原始图片到底有多大:12000000x24=275Mbit=34MB!
这也就是大家直观感受到的:在3G时代浏览网页时,经常是文字早都看到了,图片还在转圈圈,因为图片的大小远大于文本。
3、视频
那视频呢?所谓视频,其实也叫动画,都知道视频是怎么来的吧?
没错,大量的图片连续起来播放,因为人的眼睛有视觉暂留现象,只要连续播放的图片速度够快,人就感觉里面的画面是连续运动的,这就是视频。
最原始的“视频”
衡量视频,又是用的什么指标参数呢?
最主要的一个,就是帧率。一个帧就是指视频中一幅静止的画面。帧率,就是指视频每秒钟包括的画面数量。
显而易见,帧率越高,画面也就越自然流畅。一般来说30帧每秒就是可以接受的,但是将性能提升至60帧每秒则可以明显提升交互感和逼真感。
帧率越高,视频画面越流畅
那视频到底能有多少数据量呢?我们就以一个分辨率1920×1280,帧率30的视频为例来算一算。
1920×1280=2,073,600(Pixels 像素),每个像素点是24bit(前面算过的哦),也就是每幅图片2073600×24=49766400bit。
8 bit(位)=1 byte(字节),所以,49766400bit=6220800byte≈6.22MB。
注意,这只是一幅1920×1280图片的原始大小,再乘以帧率30才是视频的大小,也就是说,每秒视频的大小是186.6MB,每分钟大约是11GB,一部90分钟的电影,约是1000GB。。。
吓尿了吧?就算你现在电脑硬盘是4TB的(实际也就3600GB),也放不下几部大姐姐啊!
这可怎么办?别说硬盘放不下,要从网上下载的话,网速更是吃不消啊!
祖师爷香农的话犹在耳:所有的数据都是有冗余的,去掉所有冗余之后剩下的,才是我所说的信息!办法只有一个,那就是:寻找并压缩冗余数据!
那到底要怎样进行压缩呢?视频里同样的背景只需存一份,其余的都是冗余!一样的颜色也只需存一份,其余的也都是冗余!这些都是可压缩的。
经过专家们的不懈研究,一代又一代的编码方式出炉,对冗余数据的压缩能力也不断增强。目前主流的H.264编码算法,压缩率最高可达400:1,也就是说,视频可以被压缩到其原始大小的400分之一!
各种视频编码技术的压缩率
我们现在再来看看上面那个90分钟1000GB大小的视频,经过H.264编码之后,大小骤降为2.5GB,这下符合大多数人对视频大小的直觉了。
经过前面对文本,图片和视频的分析,我们再来看看下面的这组对比:
一本红楼梦:纯文本(未压缩),约2MB
一张1200万像素的照片(未压缩):约34MB
一部90分钟的电影(H.264编码):约2.5GB(也就是2500MB)
这张照片的大小是纯文本泱泱巨著《红楼梦》的17倍,然而一本书可能要十天半个月功夫才能啃完,看一张图片只需要几秒钟。
这部90分钟的电影,其大小达到了图片的近74倍,是《红楼梦》大小的1250倍!
由此可见,不同类型的数据,大小的差别简直是天壤之别!
难怪移动营业厅的小姑娘要说:上网干不同的事情,消耗的流量的多少是完全不同的。
对于个人电脑来说,CPU,内存,显卡这些硬件都区区不足道,唯有里面的硬盘是你的命根子,藏着你多年以来积累的文档、照片、视频和游戏。
不论是传统的机械硬盘,还是近期兴起的固态硬盘,都在其内部以0和1组成的二进制形式默默储存着各种数据,随时等待着被你写入或者读取。
机械硬盘和固态硬盘
机械硬盘在写入数据时,距离盘面 3 纳米的磁头会利用电磁铁,改变磁盘上磁性材料的极性来记录数据,两种极性分别对应 0 或 1 。
而读取数据时,旁边的读取器可以识别磁性材料的不同极性,再还原成 0 或 1 。
机械硬盘的数据写入
固态硬盘储存数据靠的是闪存,其写入和读取的原理跟传统的机械硬盘是截然不同的。
闪存的基本存储单元是浮栅晶体管,其被二氧化硅包裹,和上下绝缘,在断电时也能够保存电子,当电子数量高于一个中间值就表示 0 ,低于中间值就表示 1 。
固态硬盘的就是靠控制内部的电子数量来写入数据,靠测量内部的电子数量来读取数据的。
固态硬盘的数据存储
固态硬盘的读写速度可达后者的十倍以上,因此其使用体验远超机械硬盘。此外,由于没有复杂的机械结构,固态硬盘工作时也更安静、更抗震。
作为现代社会必不可少的两件物品,手机和电脑的结构类似,基本可以将手机看作为电脑浓缩版。
手机内部存储数据的闪存和固态硬盘的结构是类似的,都是为了迅速地读写0和1这样的二进制数据。
在你欣赏图片时,在你聆听音乐时,在你沉迷于视频时,在你接听电话时,在基站和手机之间,比特在空气中穿梭疾驰;在手机内部,比特在忙碌而有秩序地引吭高歌。
比特,它在廉价功能机里唱歌,在Android/ target=_blank class=infotextkey>安卓智能机里唱歌,在苹果旗舰机里唱歌,在忙碌的办公电脑里唱歌,慈祥的老人听过,充满活力的少年听过,寂寞的码农听过,憔悴的中年人也听过。
这,就是比特的世界,它看不见摸不着却又无处不在,深刻地改变了我们每一个人的生活,甚至重塑了整个世界。
好了,本期的内容就到这里。
各位如果喜欢,请点赞并关注我,后续内容更精彩哦!