两种 java 向 yarn 提交 spark 任务命令的区别

时间：2022-07-28 14:49:43 来源：作者：Java熬夜党

核心代码

private void pi() {         log.info("----- start pi -----");        final String JAVAHome = System.getenv("JAVA_HOME");        final String hadoopConfDir = System.getenv("HADOOP_CONF_DIR");        log.info("javaHome: " + javaHome);        log.info("hadoopConfDir: " + hadoopConfDir);        log.info("sparkHome: " + sparkHome);        log.info("mode: " + deployMode);        log.info("AppResource: " + sparkJar);        log.info("mAInClass: " + mainClass);        final String[] args = new String[]{ "--jar", sparkJar, "--class", mainClass, "--arg", "10"};        String appName = "spark-yarn";        System.setProperty("SPARK_YARN_MODE", "true");        SparkConf sparkConf = new SparkConf();        sparkConf.setSparkHome(sparkHome);        sparkConf.setMaster("yarn");        sparkConf.setAppName(appName);        sparkConf.set("spark.submit.deployMode", "cluster");        String jarDir = "hdfs://sh01:9000/user/deployer/spark-jars/*.jar";        log.info("jarDir: " + jarDir);        sparkConf.set("spark.yarn.jars", jarDir);        if (enableKerberos) {             log.info("---------------- enable kerberos ------------------");            sparkConf.set("spark.hadoop.hadoop.security.authentication", "kerberos");            sparkConf.set("spark.hadoop.hadoop.security.authorization", "true");            sparkConf.set("spark.hadoop.dfs.namenode.kerberos.principal", "hdfs/_HOST@KPP.COM");            sparkConf.set("spark.hadoop.yarn.resourcemanager.principal", "yarn/_HOST@KPP.COM");        }        ClientArguments clientArguments = new ClientArguments(args);        Client client = new Client(clientArguments, sparkConf);//        client.run();        ApplicationId applicationId = client.submitApplication();        log.info("submit task [{}] and application id [{}] ", appName, applicationId.getId());        YarnAppReport yarnAppReport = client.monitorApplication(applicationId, false, true, 1000);        log.info("task [{}] process result [{}]", appName, yarnAppReport.finalState());        if (yarnAppReport.finalState().equals(FinalApplicationStatus.SUCCEEDED)) {             log.info("spark任务执行成功");        } else {             log.info("spark任务执行失败");        }        log.info("----- finish pi -----");    }

两种提交方式有什么区别

client.run() 是同步的，spark 任务结束前该行一下的代码不会执行。该方法的无返回值，也就是说拿不到 spark 任务执行的任何信息。

client.submitApplication() 是异步的，提交任务后立即执行该行下的代码。但是该方法会返回 ApplicationId ，这个就很有用啦。接下来可以调用 monitorApplication 方法让 java 代码 block 住，并且拿到 spark 任务执行的一些信息。

YarnAppReport yarnAppReport = client.monitorApplication(applicationId, false, true, 1000);

public YarnAppReport monitorApplication(final ApplicationId appId, final boolean returnOnRunning, final boolean logApplicationReport, final long interval) { // 代码就不贴了，有需要自己去看喽。}

applicationId 就不用说啦，肯定是spark job 的 id。
returnOnRunningtrue ：当 spark job 处于 RUNNING 状态时，monitorApplication 方法结束 block，返回 yarnAppReport。false : monitorApplication 等待 spark job 执行完毕结束 block，返回 yarnAppReport。当然如果 spark job 里面有 bug，那该啥时返回就啥时返回，具体的可以看下源代码，只需要看清楚几个关键环节就行。logApplicationReport 控制是否在输出 spark job 执行时的日志。interval 间隔多尝试间去轮询一次 spark job。源代码里面写的是 while(true) 循环。YarnAppReport 中持有 spark 任务的状态以及其他信息，具体内容自己可以去里面搜。很显然，client.submitApplication() 更有操作空间。

Tags：spark 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　Search: spark 点击:(41)　　评论:(0)　　加入收藏

在Linux系统中实现容器化的大规模数据分析平台：Hadoop和Spark

在Linux系统中实现容器化的大规模数据分析平台，我们可以利用Hadoop和Spark这两个强大的开源工具。Hadoop是一个分布式计算框架，适用于处理大规模数据集。它提供了分布式文件系...【详细内容】

2023-12-15　　Search: spark 点击:(166)　　评论:(0)　　加入收藏

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式（追加、覆盖、忽略或报...【详细内容】

2023-12-13　　Search: spark 点击:(154)　　评论:(0)　　加入收藏

基于PySpark SQL的媒体浏览日志ETL作业

pyspark除了官方的文档，网上的教程资料一直很少，但基于调度平台下，使用pyspark编写代码非常高效，程序本身是提交到spark集群中，性能上也是毫无问题的，在本文中，我们将深入探讨基于S...【详细内容】

2023-11-27　　Search: spark 点击:(207)　　评论:(0)　　加入收藏

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中，「Apache Spark」以其独特的优势脱颖而出。本篇文章，我们将一起走进Spark的世界，探索并理...【详细内容】

2023-10-17　　Search: spark 点击:(358)　　评论:(0)　　加入收藏

Apache Spark 的新编程语言

English SDK for Spark : 将英语作为一种新的编程语言，将生成式 AI 当做编译器，将 Python 视作字节码！本文主要介绍了 Apache Spark 的英语软件开发套件（SDK）的重要性和目标，以及...【详细内容】

2023-07-07　　Search: spark 点击:(243)　　评论:(0)　　加入收藏

分布式计算哪家强：Spark、Dask、Ray大比拼

介绍三个最主流的分布式计算框架Apache Spark、Dask和Ray的历史、用途和优缺点以便了解如何选择最适合特定数据科学用例的框架。1 历史1.1 Apache SparkSpark是由Matei Zaha...【详细内容】

2023-05-21　　Search: spark 点击:(111)　　评论:(0)　　加入收藏

Hive 和 Spark 分区策略剖析

一、概述随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略...【详细内容】

2023-03-30　　Search: spark 点击:(148)　　评论:(0)　　加入收藏

Hadoop 及Spark 分布式HA运行环境搭建

欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在...【详细内容】

2023-02-21　　Search: spark 点击:(117)　　评论:(0)　　加入收藏

Cloud Shuffle Service 在字节跳动 Spark 场景的应用实践

本文整理自字节跳动基础架构的大数据开发工程师魏中佳在 ApacheCon Aisa 2022 「大数据」议题下的演讲，主要介绍 Cloud Shuffle Service（CSS）在字节跳动 Spark 场景下的设计与...【详细内容】

2022-10-26　　Search: spark 点击:(277)　　评论:(0)　　加入收藏

▌简易百科推荐

Java 8 内存管理原理解析及内存故障排查实践

本文介绍Java8虚拟机的内存区域划分、内存垃圾回收工作原理解析、虚拟机内存分配配置，以及各垃圾收集器优缺点及场景应用、实践内存故障场景排查诊断，方便读者面临内存故障时...【详细内容】

2024-03-20　　vivo互联网技术　　　　Tags:Java 8 　点击:(18)　　评论:(0)　　加入收藏

如何编写高性能的Java代码

作者 | 波哥审校 | 重楼在当今软件开发领域，编写高性能的Java代码是至关重要的。Java作为一种流行的编程语言，拥有强大的生态系统和丰富的工具链，但是要写出性能优异的Java代码...【详细内容】

2024-03-20　　　　51CTO　　Tags:Java代码　点击:(25)　　评论:(0)　　加入收藏

在Java应用程序中释放峰值性能：配置文件引导优化(PGO)概述

译者 | 李睿审校 | 重楼在Java开发领域，优化应用程序的性能是开发人员的持续追求。配置文件引导优化(Profile-Guided Optimization，PGO)是一种功能强大的技术，能够显著地提高Ja...【详细内容】

2024-03-18　　　　51CTO　　Tags:Java 　点击:(34)　　评论:(0)　　加入收藏

Java生产环境下性能监控与调优详解

堆是 JVM 内存中最大的一块内存空间，该内存被所有线程共享，几乎所有对象和数组都被分配到了堆内存中。堆被划分为新生代和老年代，新生代又被进一步划分为 Eden 和 Survivor 区，...【详细内容】

2024-02-04　　大雷家吃饭　　　　Tags:Java 　点击:(63)　　评论:(0)　　加入收藏

在项目中如何避免和解决Java内存泄漏问题

在Java中，内存泄漏通常指的是程序中存在一些不再使用的对象或数据结构仍然保持对内存的引用，从而导致这些对象无法被垃圾回收器回收，最终导致内存占用不断增加，进而影响程序的性...【详细内容】

2024-02-01　　编程技术汇　　今日头条　　Tags:Java 　点击:(78)　　评论:(0)　　加入收藏

Java中的缓存技术及其使用场景

Java中的缓存技术是一种优化手段，用于提高应用程序的性能和响应速度。缓存技术通过将计算结果或者经常访问的数据存储在快速访问的存储介质中，以便下次需要时可以更快地获取。...【详细内容】

2024-01-30　　编程技术汇　　　　Tags:Java 　点击:(78)　　评论:(0)　　加入收藏

JDK17 与 JDK11 特性差异浅谈

从 JDK11 到 JDK17 ，Java 的发展经历了一系列重要的里程碑。其中最重要的是 JDK17 的发布，这是一个长期支持（LTS）版本，它将获得长期的更新和支持，有助于保持程序的稳定性和可靠性...【详细内容】

2024-01-26　　政采云技术　　51CTO　　Tags:JDK17 　点击:(100)　　评论:(0)　　加入收藏

Java并发编程高阶技术

随着计算机硬件的发展，多核处理器的普及和内存容量的增加，利用多线程实现异步并发成为提升程序性能的重要途径。在Java中，多线程的使用能够更好地发挥硬件资源，提高程序的响应...【详细内容】

2024-01-19　　大雷家吃饭　　　　Tags:Java 　点击:(111)　　评论:(0)　　加入收藏

这篇文章彻底让你了解Java与RPA

前段时间更新系统的时候，发现多了一个名为Power Automate的应用，打开了解后发现是一个自动化应用，根据其描述，可以自动执行所有日常任务，说的还是比较夸张，简单用了下，对于office、...【详细内容】

2024-01-17　　Java技术指北　　微信公众号　　Tags:Java 　点击:(108)　　评论:(0)　　加入收藏

Java 在 2023 年仍然流行的 25 个原因

译者 | 刘汪洋审校 | 重楼学习 Java 的过程中，我意识到在 90 年代末 OOP 正值鼎盛时期，Java 作为能够真正实现这些概念的语言显得尤为突出（尽管我此前学过 C++，但相比 Java 影响...【详细内容】

2024-01-10　　刘汪洋　　51CTO　　Tags:Java 　点击:(82)　　评论:(0)　　加入收藏

推荐资讯

凌晨3点北京鬼市，天亮	老美怂了？美国众议院计
Meta AI 全球市场扩张	重磅！Meta推出开源大模
多地将禁止超标车上路	喝完一瓶啤酒，多久才能
古代富人都喜欢“扬州	夫妻一方可查询配偶财