博特智能(BotSmart)自成立以来始终致力于研发人工智能(AI)的图像识别、文本分析、声音识别等技术。面对互联网内容量UGC产量日益巨增,该公司利用人工智能(AI)技术协助互联网企业对网络内容进行快速且精准的审核和过滤。
作为一家专注信息内容安全和内容审核的公司,博特智能做了充足的准备工作,收集储备了不同类型数量丰富的图片和文本信息,以自研的深度学习算法,实现了对互联网内容高效的审核和过滤。
应对海量内容分析,需要更高系统算力
在应对网络海量内容审核的业务场景时,博特智能发现违规内容的类型繁杂,涉及涉政、涉恐、涉黄、广告等方面,媒体形式包含文本、图片、视频、音频等。面对此种情况,需要收集大量图片和文本才能进行机器学习的训练。
此外,每种违规类型的具体情况又有多重变化。系统学习得越多,系统的识别率就越高。海量的学习训练,量级越高,对识别率的精准度帮助越大,这对训练系统的算力提出了很高的要求。
在内容审核的实时分析方面,企业客户的业务要求越来越严苛,对提交的图片和文本等内容多数希望能立即分析完成返回结果,这就对单任务的分析计算速度有了极高要求。而另一方面,互联网用户的自由度不受限,在短时间提交大量内容的情况近期频发。要对相关网络内容安全性进行审核,就等同于日均图片的识别量高达一亿的数量,并且最终将成常态,这对服务器造成的压力是此前相关内容审核从业人员不曾遇到的。
NVIDIA RTX Server,超强算力应对多种需求
面对这些挑战,博特智能通常通过建立CPU+GPU异构计算,汇集成百上千服务器的集群用来满足算力需求。同时,服务器集群需要能够根据GPU使用情况支持自动扩容缩容,从而实现资源合理分配。
博特智能一直采用NVIDIA GPU搭建的多卡服务器集群,用于训练模型和推理计算。NVIDIA的多卡服务器集群可以满足内容审核的人工智能运算需求。
设计方案示例——图像多GPU集群 利用NVIDIA多GPU集群实现每天一亿张的海量图片处理,每张图片处理速度可达
博特智能目前采用NVIDIA RTX 8000作为训练和推断的显卡,这跟原有GTX1080 Ti性能相比有了比较大的提升,在运行ResNet-50的训练时,每秒处理的图片数量由原来的207张提升到290张。
在模型训练阶段,借助NVIDIA GPU多卡服务器集群,让训练速度有了质的飞跃。训练时间大大缩短极大的加快了模型迭代的速度,从而很快完成模型训练并部署测试。而后根据结果修改算法,又可以更快的开始新一轮训练,更快的满足企业用户各种定制化审核模型的需求。
NVIDIA RTX 8000各项指标都很优秀,不仅具备更多的CUDA核心,还拥有更大的显存空间和更高的显存带宽。单卡渲染速度在50秒以内,而满载额时,每秒处理数量最多为643张。在渲染的同时还能实现去AI噪点以及其它AI推理工作。
NVIDIA RTX 8000实时光线追踪功能因48GB的大显存及Tensor Cores的加持,加深了AI推理和深度学习的速度,让更多的数据可加载到显存,在很大程度上加快了计算速度,减少了数据拷贝的时间。
NVIDIA GPU还对公司图文、音频、视频的模型训练给予了极为良好的支持。显示接口由从前的4xDP+1xDVI升级为了4xDP+1xVirtualink配置。DP接口最高分辨率可达7680*4320,是一代VR设备的标准接口,这对公司已经在计划中的AR、XR、VR项目提前给予了支持。
在实际部署阶段,NVIDIA的多卡服务器集群为算法工程师大量的数据分析提供了高效稳定的计算资源,满足了实际部署阶段的算力需求。
当大量的互联网内容通过网络服务进入部署的NVIDIA多卡服务器集群中时,服务器集群能够自动扩容,根据内容的计算量进行调度,充分利用资源,实现GPU的高效利用。
GPU赋能AI落地内容审核行业
目前,博特智能的人工智能内容审核业务落地互联网多个领域,且数量正保持高速的增长,其覆盖的客户包括网络视频、直播,音频文学、媒体、游戏、交友、旅游出行、电商等各个领域,并将不断扩展。
博特智能创始人兼CEO戴亦斌表示:“此前信息内容审核行业完全依靠人工进行审核,这种传统的方式已经无法满足不断快速增长的互联网内容。以人工智能审核为主的网络内容审核必将是未来的发展方向。在NVIDIA GPU的支持下,我们能够在每天高达一亿张图片识别量的压力下,为用户提供快速准确的违规内容审核和过滤,让我们的客户运营实现价值最大化。未来,信息内容审核行业将会是价值千亿的市场。相信随着AI技术的不断发展和普及,我们必将能为更多企业创造更多实惠及更大的商业价值。”