理解 Spark 写入 API 的数据处理能力

时间：2023-12-13 12:11:41 来源：微信公众号作者：

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式（追加、覆盖、忽略或报错）而分岔。每种模式执行必要的检查和操作，例如分区和数据写入处理。流程以数据的最终写入或错误结束，取决于这些检查和操作的结果。

Apache Spark 是一个开源的分布式计算系统，提供了强大的平台用于处理大规模数据。写入 API 是 Spark 数据处理能力的基本组成部分，允许用户将数据从他们的 Spark 应用程序写入或输出到不同的数据源。

一、理解 Spark 写入 API

1.数据源

Spark 支持将数据写入各种数据源，包括但不限于：

分布式文件系统，如 HDFS
云存储，如 AWS S3、Azure Blob Storage
传统数据库（包括 SQL 和 NoSQL）
大数据文件格式（Parquet、Avro、ORC）

2.DataFrameWriter

写入 API 的核心类是 DataFrameWriter。它提供配置和执行写入操作的功能。通过在 DataFrame 或 Dataset 上调用 .write 方法获得 DataFrameWriter。

3.写入模式

指定 Spark 在写入数据时应如何处理现有数据的模式。常见的模式包括：

Append：将新数据添加到现有数据中。
overwrite：用新数据覆盖现有数据。
ignore：如果数据已存在，则忽略写入操作。
errorIfExists（默认）：如果数据已存在，则抛出错误。

4.格式规范

可以使用 .format("formatType") 方法指定输出数据的格式，如 JSON、CSV、Parquet 等。

5.分区

为了实现有效的数据存储，可以使用 .partitionBy("column") 方法根据一个或多个列对输出数据进行分区。

6.配置选项

可以使用 .option("key", "value") 方法设置特定于数据源的各种选项，如压缩、CSV 文件的自定义分隔符等。

7.保存数据

最后，使用 .save("path") 方法将 DataFrame 写入指定的路径。其他方法如 .saveAsTable("tableName") 也可用于不同的写入场景。

from pyspark.sql import SparkSession
from pyspark.sql import Row
import os

# 初始化 SparkSession
spark = SparkSession.builder  
    .appName("DataFrameWriterSaveModesExample")  
    .getOrCreate()

# 示例数据
data = [
    Row(name="Alice", age=25, country="USA"),
    Row(name="Bob", age=30, country="UK")
]

# 附加数据用于追加模式
additional_data = [
    Row(name="Carlos", age=35, country="SpAIn"),
    Row(name="Daisy", age=40, country="Australia")
]

# 创建 DataFrames
df = spark.createDataFrame(data)
additional_df = spark.createDataFrame(additional_data)

# 定义输出路径
output_path = "output/csv_save_modes"

# 函数：列出目录中的文件
def list_files_in_directory(path):
    files = os.listdir(path)
    return files

# 显示初始 DataFrame
print("初始 DataFrame:")
df.show()

# 使用覆盖模式写入 CSV 格式
df.write.csv(output_path, mode="overwrite", header=True)
print("覆盖模式后的文件:", list_files_in_directory(output_path))

# 显示附加 DataFrame
print("附加 DataFrame:")
additional_df.show()

# 使用追加模式写入 CSV 格式
additional_df.write.csv(output_path, mode="append", header=True)
print("追加模式后的文件:", list_files_in_directory(output_path))

# 使用忽略模式写入 CSV 格式
additional_df.write.csv(output_path, mode="ignore", header=True)
print("忽略模式后的文件:", list_files_in_directory(output_path))

# 使用 errorIfExists 模式写入 CSV 格式
try:
    additional_df.write.csv(output_path, mode="errorIfExists", header=True)
except Exception as e:
    print("errorIfExists 模式中发生错误:", e)

# 停止 SparkSession
spark.stop()

二、Spark 架构概述

理解 Spark 写入 API 的数据处理能力

在 Apache Spark 中写入 DataFrame 遵循一种顺序流程。Spark 基于用户 DataFrame 操作创建逻辑计划，优化为物理计划，并分成阶段。系统按分区处理数据，对其进行日志记录以确保可靠性，并带有定义的分区和写入模式写入到本地存储。Spark 的架构确保在计算集群中高效管理和扩展数据写入任务。

从 Spark 内部架构的角度来看，Apache Spark 写入 API 涉及了解 Spark 如何在幕后管理数据处理、分发和写入操作。让我们来详细了解：

三、Spark 架构概述

驱动程序和执行器： Spark 采用主从架构。驱动节点运行应用程序的 main() 函数并维护有关 Spark 应用程序的信息。执行器节点执行数据处理和写入操作。
DAG 调度器：当触发写入操作时，Spark 的 DAG（有向无环图）调度器将高级转换转换为一系列可以在集群中并行执行的阶段。
任务调度器：任务调度器在每个阶段内启动任务。这些任务分布在执行器之间。
执行计划和物理计划： Spark 使用 Catalyst 优化器创建高效的执行计划。这包括将逻辑计划（要做什么）转换为物理计划（如何做），考虑到分区、数据本地性和其他因素。

四、在 Spark 内部写入数据

(1) 数据分布： Spark 中的数据分布在分区中。当启动写入操作时，Spark 首先确定这些分区中的数据布局。

(2) 写入任务执行：每个分区的数据由一个任务处理。这些任务在不同的执行器之间并行执行。

写入模式和一致性：

对于 overwrite 和 append 模式，Spark 确保一致性，通过管理数据文件的替换或添加来实现。
对于基于文件的数据源，Spark 以分阶段的方式写入数据，先写入临时位置再提交到最终位置，有助于确保一致性和处理故障。

(3) 格式处理和序列化：根据指定的格式（例如，Parquet、CSV），Spark 使用相应的序列化器将数据转换为所需的格式。执行器处理此过程。

(4) 分区和文件管理：

如果指定了分区，则Spark在写入之前根据这些分区对数据进行排序和组织。这通常涉及在执行器之间移动数据。
Spark 试图最小化每个分区创建的文件数量，以优化大文件大小，在分布式文件系统中更有效。

(5) 错误处理和容错：在写入操作期间，如果任务失败，Spark 可以重试任务，确保容错。但并非所有写入操作都是完全原子的，特定情况可能需要手动干预以确保数据完整性。

(6) 优化技术：

Catalyst 优化器：为效率优化写入计划，例如最小化数据移动。
Tungsten： Spark 的 Tungsten 引擎优化数据序列化和反序列化过程中的内存和 CPU 使用。

(7) 写入提交协议： Spark 使用写入提交协议来协调特定数据源的任务提交和中止过程，确保对写入数据的一致视图。

Spark 的写入 API 旨在实现高效和可靠的数据写入，它以复杂的方式编排任务分发、数据序列化和文件管理。它利用 Spark 的核心组件，如 DAG 调度器、任务调度器和 Catalyst 优化器，有效地执行写入操作。

Tags：API 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API

3月26日，北京：中国三大领先的移动运营商——中国移动、中国电信和中国联通今日发布商用OTP API（一次性密码API）服务，并通过了GSMA Open Gateway认证。此次发布标志着中...【详细内容】

2024-03-26　　Search: API 点击:(18)　　评论:(0)　　加入收藏

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各...【详细内容】

2024-02-19　　Search: API 点击:(59)　　评论:(0)　　加入收藏

构建 Web API 的两种流行选择：REST vs GraphQL

在 RESTful 和 GraphQL API 之间的选择取决于您的具体用例。RESTful API 适用于需要高可伸缩性的简单应用程序，而 GraphQL 则适用于具有不同数据需求的复杂应用程序。简介RES...【详细内容】

2024-01-09　　Search: API 点击:(63)　　评论:(0)　　加入收藏

FastAPI：高性能Web框架的简介与应用

正文：在当今互联网时代，构建高性能的WebAPI是许多开发人员的关注重点。而FastAPI作为一个现代、快速的Web框架，为基于标准Python类型提示的API构建提供了强大的支持。FastAPI的...【详细内容】

2023-12-27　　Search: API 点击:(101)　　评论:(0)　　加入收藏

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式（追加、覆盖、忽略或报...【详细内容】

2023-12-13　　Search: API 点击:(149)　　评论:(0)　　加入收藏

如何在Python中使用ChatGPT API处理实时数据

译者 | 李睿审校 | 重楼OpenAI公司推出的GPT如今已经成为全球最重要的人工智能工具，并精通基于其训练数据处理查询。但是，它不能回答未知话题的问题，例如： 2021年9月之后的近期...【详细内容】

2023-12-13　　Search: API 点击:(226)　　评论:(0)　　加入收藏

伪原创API是什么？六个角度了解伪原创API

伪原创API，听起来可能对许多人来说是一个陌生的术语。然而，在当今数字化时代，尤其是在内容创作和网络营销领域，伪原创API正逐渐崭露头角。在本文中，我将向您深入介绍伪原创API是...【详细内容】

2023-12-11　　Search: API 点击:(156)　　评论:(0)　　加入收藏

使用FastAPI部署YOLO模型的步骤

在计算机视觉领域，You Only Look Once (YOLO) 算法已经崭露头角，成为一种改变游戏规则的算法。它承诺具有卓越准确性的实时目标检测，使其成为从监视和自动驾驶车辆到图像和视频...【详细内容】

2023-12-06　　Search: API 点击:(157)　　评论:(0)　　加入收藏

构建强大REST API的十个最佳实践

在项目开发中，我们经常会使用REST风格进行API的定义，这篇文章为大家提供10条在使用REST API时的最佳实践。希望能够为你带来灵感和帮助。1、使用具体且有意义的资源名称选择能...【详细内容】

2023-12-06　　Search: API 点击:(148)　　评论:(0)　　加入收藏

前端请求到后端API的中间件流程解析

在前端请求到后端API的典型流程中，经过一系列中间件的处理，确保请求的顺利处理和安全性。以下是中间件的详细解析：1. 前端请求用户在前端发起请求，包括请求的URL、参数、以及其...【详细内容】

2023-12-06　　Search: API 点击:(122)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版