整理 | 晋兆雨
出品 | AI科技大本营(ID:rgznai100)
【导读】7 月 3-4 日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)在线上举行。本次大会有超万人报名参与,参与人群覆盖 60+ 领域、5000 家企业。其中有来自行业内 70+ 顶尖企业、开源社区与科研高校的近 100 位行业领袖、技术大咖与研究学者。
他们用更新鲜、更有趣、更年轻的方式,聚焦智能时代 AI 技术的发展曲线以及 AI 与社会各行业结合的最新应用进展,深入解析热门 AI 技术在行业中的实践与落地经验,揭示技术与行业发展面临的机遇与挑战。
在 7 月 4日下午的 「AI开源与生态建设」论坛上,来自Zilliz、Ludwig、旷视研究院、中兴通讯、百度与华为的技术专家针对自身企业开源的AI平台带来了精彩的主题演讲,让大家加深对AI开源平台的进一步了解。
论坛直播回放地址:
https://live.csdn.net/room/ozuejhrvf/XG6TdLHG
以下内容根据「AI开源与生态建设」论坛 6 位嘉宾的演讲提炼,由 AI科技大本营(ID:rgznai100)整理:
顾钧:基于Milvus的非结构数据服务平台
Zilliz合伙人、技术布道师 顾钧详细为我们介绍了Zilliz旗下提供非结构数据服务的Milvus平台的由来、当前的进展和实际应用案例。
现在在数据服务领域,结构化数据类型已经有了较为成熟的解决方法,然而大部分的数据本身都是非机构化的,针对非结构化数据现今还没有通用的解决方案,因此建立一个统一的非结构数据服务平台对于数据处理具有重要意义。
顾钧在演讲中通过一个视频处理的案例为我们介绍了基于flow-based的AI应用,其具有灵活、代码量少、有众多参考示例等优点。
然而这样的处理也带来了新的数据服务的挑战——数据碎片化。
解决这个问题需要转换视角,从基于流型的过程转化为基于传统层次模型的过程。
虽然现在已经有了大量预处理模型,但是AI技术仍然很难落地的主要原因之一就是数据服务层的成本过高。其中最好的解决方案就是建立统一的非结构数据服务。
统一的非结构数据服务包含了四个方面的内容:基础的向量搜索的过程、结构化属性的标签、支持多模态、形成融合的打分机制。Milvus已经具备了良好的向量分析的能力,正在努力实现标注属性信息、多模态、打分的功能,成为完整的非结构化数据的基础软件。
为什么Milvus如此重要?
因为向量数据与数字数据本身存在巨大的差距,数字与向量的计算量和计算方式完全不同,因此向量无法像数字一样使用高效的二叉树索引进行快速查询,多采用聚类索引和图形索引。
Milvus的服务功能发展情况:
异构计算:已有一定的基础,融合多种不同的资源
数据管理:对向量数据的分片、删除、动态更新都能良好的支持
向量搜索:吸收和改进业界主流的算法库,已经具备了出色的性能
应用开发环境的支持:诸多应用开发环境都能与Milvus适配
Milvus的发展速度很快,从2018年10月具备初步想法到2020年3月正式加入了LF AI基金会,已经成为了LF AI基金会中开发最活跃的项目。
Milvus已经有了广泛的应用,包括wps公文数据的处理和写作、小米浏览器新闻信息的推流、企查查企业商标图片的搜索功能、制药领域加速药物化合物分子结构的流程等等。
Piero Molino:基于TensorFlow的深度学习实验工具箱
Ludwig 创始人和维护者,Uber AI前高级研究科学家 Piero Molino为我们介绍了基于TensorFlow的深度学习实验工具箱。
该实验工具箱具有通用性、灵活性、可拓展、易理解、使用方便、开放性等多个优点。
工具箱的模型训练过程主要是原始数据、数据预处理、处理数据、魔性训练四个步骤。
其中在训练过程中需要保存字段映射、模型超参数和权重等信息。
如何实现预测?在训练期间获得的相同场映射会被用于预处理每个数据点和后处理模型的每个预测,以便映射回标签。
旷视研究院天元MegEngine异构计算组组长曾平分享了旷视天元在端上的优化工作。
端上智能是在端侧做AI推理应用,比如美颜拍照。
出于隐私保护、降低时延和流量成本、分担云上服务器压力等方面的考虑,端上推理的落地具有很大的实践价值。
端上应用也面对来自速度、内存、模型大小、引擎大小、功耗等方面对端设备和框架的挑战。
天元在端上已经完成了整体架构优化、底层核心优化、性能评测等功能。
天元通过常量折叠、算子融合、冗余算子消除、可达性分析等手段可以达到图优化的目的。
作为端上推理的重要算法,winograd能从理论上加速卷积。
中兴通讯AI平台高级工程师刘涛介绍,Adlik能够帮助用户全套快速完成编译优化、环境部署运行、迁移等工作,减少AI推理端用户在多种算法之间学习的成本。
Adlik模型优化器的特性:支持多机多卡的剪枝和调优,先剪枝再加速。小批量的模型数据量化基本没有损失。
Adlik提供给用户一整套Serving SDK,支持用户自定义运行时和指定的AI应用,提供整套的C++ API,用户可以自定义算法、轻易扩展运行时。
毕然:飞桨(PaddlePaddle)与深度学习实践课程
百度深度学习平台部主任架构师、飞桨产品负责人毕然全面介绍了百度飞桨——源于产业实践的开源深度学习平台,同时还分享了一些系统化学习和实践深度学习技术的课程
人工智能在过去几十年间有了突飞猛进的发展,尤其从2010年开始,深度学习技术从学术界走向了工业界,相关产业持续增长,人工智能行业将成为继互联网之后,人类取得巨大突破和产生巨大经济价值的行业。
百度飞桨为不仅为用户提供开源框架,而且为用户提供深度学习过程中需要的各种类型的模型组件和辅助工具。
百度飞桨具备四大技术优势:
开放便捷的深度学习框架,支持动态图和静态图
超大规模深度学习模型训练技术
多端多平台部署的高性能推理引擎
产业级开源模型库,算法达到146个
百度飞桨在通信、电力、城市管理、民生、工业、农业、林业、公益等多领域广泛应用。
华为计算开源生态部副总监黄之鹏介绍,MindSpore是华为在今年3月28号开源的全新的深度学习推理和训练框架,是业界少有的几款软硬件协同设计,强调系统和端角度的学习框架。面向全场景提供统一结构,使开发者训练模型更加简单。
MindSpore的特性之一:基于源码转换的自动微分方法,能够自动构筑反向传播图的图方法,提升性能。
MindSpore的特性之二:混合并行的自动并行,开发者只要增加一条语句就可以自动实现混合并行。
MindSpore的数据处理:将零散的数据组织成成段的数据,达到高效的数据存储和处理。
MindSpore——图执行引擎:针对不同的应用场景通过一条语句灵活切换动态图和静态图,减去从开发环境到生产环境的转换工作。
https://live.csdn.net/room/ozuejhrvf/XG6TdLHG