Snowflake的工作负载优化

时间：2023-09-12 12:19:58 来源：51CTO 作者：

译者 | 李睿

审校 | 重楼

在大数据时代，高效的数据管理和查询性能对于希望从数据投资中获得最佳运营性能的企业来说至关重要。Snowflake是一个基于云的数据平台，它为企业提供了一种高效处理大数据表的方式，并降低了数据环境的复杂性，因此受到了广泛的欢迎。大数据表的特点是其巨大的规模、不断增加的数据集，以及管理和分析大量信息带来的挑战。

随着数据以各种格式从各种来源大量涌入，确保数据的可靠性和质量越来越具有挑战。从这些多样化和动态的数据中提取有价值的见解需要可扩展的基础设施、强大的分析工具以及对安全和隐私的高度关注。尽管存在复杂性，但大数据表为明智的决策和创新提供了巨大的潜力，因此企业必须了解和处理这些数据存储库的独特特征，以有效地利用其全部功能。

为了实现最佳性能，Snowflake利用了几个基本概念，这些概念有助于高效地处理大数据。一种是数据修剪，它通过在查询执行期间消除不相关的数据起着至关重要的作用，通过减少扫描的数据量来加快响应时间。与此同时，Snowflake的微分区(通常大小为16 MB的不可变的小段)允许跨节点的无缝可扩展性和高效分布。

微分区是Snowflake的一个重要功能。这种创新的技术结合了静态分区的优点，同时避免了其局限性，从而带来了额外的显著好处。Snowflake架构的美妙之处在于其可扩展的多集群虚拟仓库技术，该技术可自动维护微分区。这一过程确保在后台高效和自动地执行重新集群，从而消除了人工创建、调整大小或调整虚拟仓库大小的需要。计算服务主动监视所有注册的集群表的集群质量，并系统地在集群最少的微分区上执行集群，直到达到最佳集群深度。这种无缝流程优化了数据存储和检索，提高了整体性能和用户体验。

微分区如何改进数据存储和处理

该设计提高了数据存储和处理效率，进一步提高了查询性能。此外，Snowflake的集群特性允许用户定义集群键，根据相似性在微分区内安排数据。通过为集群键配置具有相似值的数据，Snowflake减少了查询期间的数据扫描，从而优化了性能。总之，这些关键概念使Snowflake能够在管理大数据工作负载方面具有无与伦比的效率和性能。

不适当的大数据表的布局可能导致长时间运行的查询，由于更高的数据扫描而增加的成本，以及降低的整体性能。应对这一挑战，充分利用Snowflake的能力，最大限度地发挥其潜力是至关重要的。大数据表管理中的一个主要挑战是数据摄取团队缺乏对消耗工作负载的认识，从而导致各种问题，对系统性能和成本效益产生负面影响。长时间运行的查询是一个严重的后果，会导致交付关键见解的延迟，特别是在实时数据分析对决策至关重要的时间敏感应用程序中。此外，由于低效的表布局会消耗更多的计算资源和存储，导致运营成本的增加，随着时间的推移会使企业的预算紧张。

图1 频繁访问的大数据表的列表

优化Snowflake性能

优化Snowflake性能的第一步是彻底分析消费工作负载。Acceldata的数据可观察性云计算(ADOC)平台分析这些历史工作负载，并在大小、访问、分区和集群级别提供表级洞察。

图2 访问频率最高的表的统计信息

了解最常执行的查询和应用的过滤模式可以提供有价值的见解。重点关注大型且经常访问的表，因为它们对整体性能的影响最大。

图3 表中大多数被过滤的列

ADOC的高级查询解析技术能够检测通过WHERE或JOIN子句访问的列。利用可视化和分析工具来确定访问和过滤最频繁的列。

图4 列+表的微分区和集群视图

ADOC还通过Snowflake表系统函数获取CLUSTERING_INFORMATION，并以简单易懂的可视化方式显示表集群元数据。这些信息可以指导优化表格布局的决策过程。

图5 Snowflake可视化表集群浏览器

了解过滤列的重叠程度和深度。这些信息对于在定义集群键时做出明智的决策至关重要。

最终目标是将集群键与最常用的过滤列相匹配。这种对齐确保了相关数据聚集在一起，减少了数据扫描并提高了查询性能。

Snowflake在管理大数据表方面的能力是无与伦比的，但要充分利用它的优势，通过数据修剪和集群来优化性能是必不可少的。数据摄取团队和使用数据的团队之间的协作对于确保表的最佳布局至关重要。通过了解消费工作负载并将集群键与过滤列匹配，企业可以实现高效查询，降低成本，并充分利用Snowflake在高效处理大数据方面的能力。

原文标题：Snowflake Workload Optimization，作者：Ashwin Rajeeva

Tags：Snowflake 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Snowflake的工作负载优化

译者 | 李睿审校 | 重楼在大数据时代，高效的数据管理和查询性能对于希望从数据投资中获得最佳运营性能的企业来说至关重要。Snowflake是一个基于云的数据平台，它为企业提供了...【详细内容】

2023-09-12　　Search: Snowflake 点击:(72)　　评论:(0)　　加入收藏

twitter snowflake 算法（分布式 id 生成算法）

0 | 0001100 10100010 10111110 10001001 01011100 00 | 10001 | 1 1001 | 0000 00000000twitter在把存储系统从MySQL迁移到Cassandra的过程中由于Cassandra没有顺序ID生成...【详细内容】

2022-08-20　　Search: Snowflake 点击:(342)　　评论:(0)　　加入收藏

▌简易百科推荐

大数据杀熟何时告别“人人喊打却无可奈何”？

2月7日郑州飞往珠海的航班，不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历，引发社会广泛关注——用3个账号买同一航班同...【详细内容】

2024-01-30　　　　中国青年网　　Tags:大数据杀熟　点击:(32)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

随着互联网的快速发展，大数据已经成为了当今社会最热门的话题之一。那么，到底什么是大数据呢？首先，我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】

2024-01-30　　　　简易百科　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

数据采集新篇章：AI与大模型的融合应用

开篇在AIGC（人工智能与通用计算）应用中，大型语言模型（LLM）占据着举足轻重的地位。这些模型，如GPT和BERT系列，通过处理和分析庞大的数据集，已经极大地推动了自然语言理解和生成的边界...【详细内容】

2024-01-17　　崔皓　　51CTO　　Tags:数据采集　点击:(50)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　InfoQ　　　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

如果存储节点本身可以定制，则通常会让其支持部分计算能力，以利用数据的亲和性，将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储，无法定制，则通常会将数据在计...【详细内容】

2023-12-19　　木鸟杂记　　微信公众号　　Tags:大数据　点击:(48)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大，尤其是当电动汽车成为汽车市场新的增长引擎。问题是：用户的数据平台准备...【详细内容】

2023-12-19　　　　51CTO　　Tags:大数据　点击:(41)　　评论:(0)　　加入收藏

利用生成对抗网络进行匿名化数据处理

在互联网时代，数据日益成为人们的生产资料。然而，在某些情况下，我们需要分享数据，但又需要保护个人隐私。这时，匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】

2023-12-18　　技巧达人小影　　　　Tags:数据处理　点击:(57)　　评论:(0)　　加入收藏

盘点那些常见的数据中心类型，你知道几个？

在数字化潮流的浪潮下，数据中心如同企业的神经系统，关系到业务的稳健运转。而在这个巨大的网络中，各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】

2023-12-07　　数据中心之家　　微信公众号　　Tags:数据中心　点击:(65)　　评论:(0)　　加入收藏

数据中心的七个关键特征

随着信息技术的不断演进，数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征，了解它们是如何影...【详细内容】

2023-12-06　　数据中心之家　　微信公众号　　Tags:数据　点击:(63)　　评论:(0)　　加入收藏

什么是数据解析？将数据转化为更好的决策

什么是数据解析？数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析（data analysis）和管理的流程、工具和技术，包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】

2023-12-06　　计算机世界　　　　Tags:数据解析　点击:(62)　　评论:(0)　　加入收藏

推荐资讯

三证齐全，中国“飞的”	小米SU7被大卸八块，雷
视频号，从抖音挖来一个	0首付、0利息！多家车企
真正0首付、0利息来了	微信共享位置怎么换地
微信搜索seo优化策略：	微信恢复聊天记录全攻