大数据领域的主要技术方向有:
1、Hadoop大数据开发方向;
2、数据挖掘、数据分析&机器学习方向;
3、大数据运维&云计算方向。
一、Hadoop大数据开发方向
Hadoop发展到今天家族产品已经非常丰富,能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。
作为开发人员掌握Hadoop及其生态内框架的开发技术,就是进入大数据领域的必经之路。Hadoop本身是用JAVA开发的,所以对java的支持性非常好,但也可以使用其他语言。因为Hadoop是运行在linux系统上的,所以还需要掌握Linux的知识。
二、数据挖掘、数据分析和机器学习方向
数据挖掘:是通过应用机器学习算法,现有数据实际上可用于预测未知数,这正是数据挖掘的奇迹与机器学习密切相关的原因。然而,任何机器学习算法的强度在很大程度上取决于大量数据集的供应。请记住,无论算法有多复杂,都不能从几行数据中做出灵感预测。大数据技术是机器学习的前提,通过使用机器学习,我们能够从现有数据集中获得有价值的见解。
数据挖掘在未来的发展趋势上,在我看来,Web网路中数据挖掘的应用,特别是在互联网上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖掘服务市场。融合各种异构数据的挖掘技术, 加强对各种非结构化数据的开采,如对文本数据,图形数据,视频图像数据,声音数据乃至综合多媒体数据的开采。
数据分析:数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。
机器学习:如果我们的目标是分析不同类型的购物者之间的相关性,或者如果我们想要推断特定类型的购物者的特定偏好,或者甚至预测任何购物者的性别或年龄,我们将需要更多复杂的模型,我们称之为算法。机器学习可以更容易理解为为数据挖掘目的而开发的所有不同类型的算法,例如逻辑回归,决策树,协同过滤等等。
三、大数据运维和云计算方向
大数据运维:有一些数据需要进行维护,运维你也可以理解成维护!
云计算:是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。云计算目前分为公有云和私有云。两者的区别只是提供的服务的对象不同,一个是企业内部使用,一个则是面向公众。云计算可以提升每台服务器的使用率,以此达到开源节流。