在这篇文章中,一位大数据专家讨论了使用ETL工具来帮助数据团队更好地使用和管理他们的数据仓库。
管理数据仓库不仅仅是管理数据仓库,如果我们听起来如此陈腐。实际上还有很多需要考虑的问题。例如,数据如何进入您的数据仓库本身就是一个完整的过程 - 具体而言,当数据处于运动状态时会发生什么,以及必须采用的形式才能变得可用。
ETL - 提取,转换,加载 - 是多个系统的数据(通常由不同供应商,部门或利益相关者开发和支持)组合到单个数据库,数据存储或仓库以用于传统存储或分析的常用范例。
提取是从各种数据源提取数据的过程。转换涉及以适当的格式转换数据以进行查询和分析。最后,当转换的数据被加载到目标数据库,数据存储,数据集市或仓库时,就会发生加载。从本质上讲,ETL可以为您的数据做准备,使其有意义且易于分析。
许多拥有内部IT团队的公司经常考虑使用自动化ETL工具,而不是提出自己的解决方案。他们可能认为他们可以依靠IT人员手动编写“管道”解决方案,但后来发现管道无法处理越来越大或复杂的数据负载。或者如果可以,它只能通过更多的费用,时间和资源来实现。
牺牲?时间,准确性和性能。因此,组织必须要问:如果我们浪费时间和日子来获取商业智能,那么追求商业智能的重点是什么,不能100%肯定我们的结果,并且感觉整个机器可能会在强风中崩溃?
另一方面,自动化ETL工具可以快速,准确,高性能,可扩展且安全。更重要的是,它执行必要的功能,不应该由过度工作或训练不足的IT团队负责监督,特别是当您的数据仓库和您的公司正在寻求的关键答案。
事实上,无论您的IT团队多么熟练,扩展数据需求都将不断给任何组织带来挑战,给员工,设备和预算带来压力,并浪费宝贵的时间在定制的手动配置上,以便跟上。因此,让我们深入了解可用的不同自动化ETL工具以及如何确定哪种工具适合您。
以下是ETL工具的具体类型以及它们可以为您的组织做些什么:
批处理工具:现有的批处理工具可在非工作时间内整合您的数据,因为计算能力的竞争较小。对于较少依赖于速度的数据类型(考虑季度或月度计算,如税收或工资报告),这些工具可在不影响其他地方性能的情况下准备数据。
开源工具:与几乎所有开源解决方案一样,开源ETL是现成的,可以轻松地与其他系统集成,对于基础设施预算有限的公司尤其具有吸引力。而且由于开源开发的协作性,您可以在一定程度上实现问责制,灵活性以及可能与其他解决方案部分缺失的“最新内容”。
基于云的工具:虽然批处理通常是内部部署数据仓库的领域,但现在云中可以使用新的批处理工具。它们提供了与原有旧系统相同的优势,但具有当今的云优势,例如实时支持,内置安全性和合规性以及智能模式检测。
实时工具:如今,大多数公司都使用大量需要实时信息的现代应用程序。实时ETL工具使用与其他选项完全不同的模型,一个基于分布式消息队列 - 解耦或独立应用程序之间的通信 - 流处理或连续数据流。最终结果是公司可以快速查询并获得答案,而不仅仅是在方便系统时。
但是,这些类别没有严格定义。例如,有开源或基于云的工具可以处理实时信息等。
虽然大多数(如果不是全部)上述工具可以在某种程度上为您的组织提供良好的服务,但每种工具都可以满足某些要求:
今天的商业智能要求对每个组织都提出了很高的要求。您的独特数据源,结构和集合不应受限于禁止流量和最终用户分析的处理。