0785-基于CDP7.1.1的Spark3.0技术预览版本发布

时间：2020-06-21 22:23:18 来源：作者：

今天Cloudera正式宣布发布CDS3，基于Apache Spark 3.0 preview2 release，参考：

https://spark.apache.org/news/spark-3.0.0-preview2.html

这是一个实验版本，建议用于测试或者技术预研，不建议在生产系统中使用。而且这个版本不受Cloudera Support支持。对于Spark3的新特性，可以参考文章《开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake》。

以下是Spark3的关键新特性：

1.Spark3的TPC-DS性能进一步提升；

2.语言支持

a)Scala version is upgraded to 2.12

b)JDK11 is fully supported.

c)Python3.6+ is supported. Python 2 and Python 3 prior to version 3.6 are deprecated

3.Adaptive execution of Spark SQL

a)对于AQE而言，最重要的问题就是什么时候去重新计算优化执行计划。Spark任务的算子如果管道排列，依次并行执行。然而，shuffle或者broadcast exchange会打断算子的排列执行，我们称其为物化点（Materialization Points），并且用"Query Stages"来代表那些被物化点所分割的小片段。每个Query Stage会产出中间结果，当且仅当该stage及其并行的所有stage都执行完成后，下游的Query Stage才能被执行。所以当上游部分stage执行完成，partitions的统计数据也获取到了，并且下游还未开始执行，这就给AQE提供了reoptimization的机会。在查询开始时，生成完了执行计划，AQE框架首先会找到并执行那些不存在上游的stages。一旦这些stage有一个或多个完成，AQE框架就会将其在physical plan中标记为完成，并根据已完成的stages提供的执行数据来更新整个logical plan。基于这些新产出的统计数据，AQE框架会执行optimizer，根据一系列的优化规则来进行优化；AQE框架还会执行生成普通physical plan的optimizer以及自适应执行专属的优化规则，例如分区合并、数据倾斜处理等。于是，我们就获得了最新优化过的执行计划和一些已经执行完成的stages，至此为一次循环。接着我们只需要继续重复上面的步骤，直到整个query都跑完。

4.Dynamic Partition Pruning (DPP)

a)Spark 3.0引入了动态分区裁剪功能，这是SQL分析工作负载的一项重大性能改进。DPP背后的想法是将维度表上的筛选器集直接应用到事实表上，以便跳过扫描不需要的分区。DPP的优化是在逻辑计划优化和物理计划上实现的。它大大增强了许多TPC-DS查询的速度，并且可以很好的适应星型模型，而无需对表进行反范式化(Denormalization)。

5.Binary files data source

a)Spark 3.0支持二进制文件数据源。它可以读取二进制文件，并将每个文件转换为包含文件原始内容和元数据的一行。

6.DataSource V2 Improvements

a)Pluggable catalog integration

b)改进谓词下推功能，可通过减少数据加载来加快查询速度

7.YARN Features

a)Spark 3.0可以自动在YARN集群上发现GPU，并将任务调度到指定的GPU节点。

8.Kafka connector delegation token (0.10+)

a)对应用只需要配置Spark的参数就可以完成认证登录，而不是非需要使用JAAS配置登录。

该试验版本不支持以下组件：

Hive Warehouse Connector
Kudu
HBase Connector
Oozie
Livy
Zeppelin

Tags：MySQL0785-基于CDP7.1.1的Spark3.0技术点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

0785-基于CDP7.1.1的Spark3.0技术预览版本发布

今天Cloudera正式宣布发布CDS3，基于Apache Spark 3.0 preview2 release，参考：https://spark.apache.org/news/spark-3.0.0-preview2.html这是一个实验版本，建议用于测试或者技...【详细内容】

2020-06-21　　Tags: MySQL0785-基于CDP7.1.1的Spark3.0技术点击:(88)　　评论:(0)　　加入收藏

▌简易百科推荐

为什么程序员在 Github 做贡献

我 2010 年开始在 Github 上开源自己的代码。在 push 代码之前我根本没想过为什么。只是因为我当时学了 git，而且我又觉得 Github 很方便，可以用来备份自己的代码。而后我就参...【详细内容】

2021-12-28　　程序员的喵　　　　Tags:Github 　点击:(2)　　评论:(0)　　加入收藏

国企岗位推荐，程序员求职速来看

JAVA开发工程师（北京）本科 3-5年经验面议（招1人）岗位职责：1.负责我行应用系统的设计，完成软件编码工作，负责管理代码设计规范等工作；2.根据应用需求分析说明书，评估需求研发的可行...【详细内容】

2021-12-27　　just do丶IT公众号　　　　Tags:国企　点击:(2)　　评论:(0)　　加入收藏

一文看懂编程的本质，程序员有前途么？

今天聊聊编程的本质。程序就是数据结构+控制+逻辑，程序员编程工作的本质是翻译，翻译机要来了，程序员怎么办？黑客帝国中的程序黑客帝国4就要上映了，不知道前三部你看懂了么？值得多...【详细内容】

2021-12-17　　博士聊IT　　　　Tags:程序员　点击:(9)　　评论:(0)　　加入收藏

互联网大厂程序员梦醒时分

梦醒之后，每个人对于这份职业的未来、互联网行业的未来，以及更重要的，自己的未来都有了更现实的判断文 | 祝颖丽编辑 | 黄俊杰一个生于 1986 年的人，他所走过的前半生：从出生起，...【详细内容】

2021-12-03　　　　财经杂志　　Tags:程序员　点击:(16)　　评论:(0)　　加入收藏

中年程序员失业后出路在哪里

前些天在头条看到一个八二年的哥们，述说自己找工作屡次被拒的问题，在网上引起了广泛的讨论，这件事给我留下了很深的印象，因为这哥们和我同是程序员，都人到中年，上有老下有小。唯一...【详细内容】

2021-12-01　　云南贤哥在深圳　　　　Tags:程序员　点击:(20)　　评论:(0)　　加入收藏

程序员如何实现高速成长？

很多读者都问过一个问题：程序员如何实现高速成长？之前也写过相关的文章，强调的主要是夯实计算机体系基础知识。再说另一个诀窍：多看经典开源项目，这些项目大多是众多顶尖程序员...【详细内容】

2021-11-30　　findyi　　　　Tags:程序员　点击:(15)　　评论:(0)　　加入收藏

“45岁程序员求职难”，他的焦虑你也有吗？

近日，一位45岁的网民在中国政府网留言求职，引发关注。该网民自称是一名软件开发人员，今年45岁，精通各种技术体系，“而我辞职回家半年后再回来寻找工作机会的时候，却发现连个面试...【详细内容】

2021-11-17　　郭主任　　　　Tags:程序员　点击:(42)　　评论:(0)　　加入收藏

获得网络安全工作所需的 5 种编程语言

即使在安全技术取得进步之后，网络犯罪仍在不断增加。据统计，网络犯罪每分钟给企业造成约 290 万美元的损失。主要是因为新技术不断涌现，难以维护安全。随着网络威胁的增加，网络...【详细内容】

2021-11-04　　章大千　　　　Tags:编程语言　点击:(40)　　评论:(0)　　加入收藏

我，程序员，告诉你年薪30万的程序员转行后，都去做什么工作了

北漂小伙李强（化名），在北京互联网大厂工作7年，月薪3万，离职回老家开摄影店，亏了200万。李强出生于山西一座名不经传的小城市，互联网专业大学毕业的他，没有听父母的劝言回到家乡考公...【详细内容】

2021-10-29　　霸王课　　今日头条　　Tags:程序员　点击:(53)　　评论:(0)　　加入收藏

程序员年龄大了不想敲代码？看看国外同行能敲到多少岁

程序员是青春饭，这在国内似乎是公认的。所以很多公司不愿招大龄程序员，很多程序员也“知趣”地及早转型。有的做管理，有的做架构，我还见过改行卖保险的。总之，年龄大了不想敲代码...【详细内容】

2021-10-27　　编程的艺术　　　　Tags: 　点击:(30)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游

无相关信息