您当前的位置:首页 > 互联网百科 > 大数据

什么是数据挖掘?

时间:2019-09-16 11:09:24  来源:  作者:

前言

在大数据时代,数据的来源有很多,但是我们不能直接拿来就用,我们需要深度挖掘数据潜在的价值和意义,下面是我在之前的学习中总结的一些概念和方法,现在分享给大家,供大家参考,如有不全之处,希望大家不吝赐教。

数据挖掘的含义

数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘是一种从大量数据中发现信息的过程,其大量依赖自动算法的特质,使得用户难以对数据和算法过程本身直观地进行理解、探索和优化。近年来,随着可视化领域的蓬勃发展,有很多工作开始探究如何使用可视化方法辅助数据挖掘过程,使用户更加直观地理解数据,并对数据和算法和进行探索。

数据挖掘(data mining)又称为数据库中的知识发现(KDD),是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的过程。近年来为了推动数据挖掘在实际中的应用,许多研究者对数据挖掘系统的体系结构做了大量的研究工作. 一个结构合理的数据挖掘系统应该具有以下几个特点:1)系统功能和辅助工具的完备性;2)系统的可扩展性;3)支持多种数据源;4)对大数据量的处理能力;5)良好的用户界面和结果展示能力。当前出现的数据挖掘系统主要包括集中式的和分布式的数据挖掘系统,而每种系统的具体结构及其各个组成部分却有多种不同的实现技术和实现方式。

数据挖掘的概念

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程+其出现于20世纪80年代后期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术!数据挖掘作为一种技术,它的生命周期正处于沟坎(chasm)阶段,需要时间和精力去研究、开发和逐步成熟,并最终为人们所接受。由于数据挖掘是数据库中知识发现(knowledge discovery in databases,KDD)的核心步骤(如图1所示),发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。

 

什么是数据挖掘?

 

 

数据挖掘综述

数据挖掘的任务就是发现隐藏在数据中的模式!其可以发现的模式一般分为两大类:描述型(descriptive)模式和预测型(predictive)模式,描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性;预测型模式则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。

 

什么是数据挖掘?

 

 

聚类分析

聚类分析(Cluster Analysis)是研究“物以类聚”的一种多元统计方法。

聚类(簇):数据对象的集合

在同一个聚类(簇)中的对象彼此相似,不同簇中的对象相异。

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类是一种没有指导的学习:没有预定义的编号。

聚类分析的数据挖掘功能

作为一个独立的工具来获得数据分布的情况,作为其他算法(如:特征和分类)的预处理步骤。

聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。

欢迎关注公众号,访问更多精彩:数据之魅



Tags:数据挖掘   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  Tags: 数据挖掘  点击:(20)  评论:(0)  加入收藏
互联网信息技术的迅速发展,大数据时代悄悄地来临。大数据是一种时代特征及数字平台,内容包括数据优化、分配与管理。在根据平台的操作过程之中,数据自身潜在的信息难以完成精确...【详细内容】
2021-07-07  Tags: 数据挖掘  点击:(89)  评论:(0)  加入收藏
1.统计知识在做数据分析,统计的知识肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。如果我们做数据挖掘的话,就要重视数学知识,数据挖掘要从海量数据中发现规律,这就需要...【详细内容】
2021-04-16  Tags: 数据挖掘  点击:(165)  评论:(0)  加入收藏
最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。1、CRISP-DM 模型CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字...【详细内容】
2021-03-08  Tags: 数据挖掘  点击:(137)  评论:(0)  加入收藏
本文总结了几种常用的数据加载方法,基于R语言工具实现数据加载模块,让用户对数据挖掘工具设计有更直观的了解。在分析和设置过程中,主要实现了聚类分析、相关分析、决策树和随...【详细内容】
2020-08-06  Tags: 数据挖掘  点击:(107)  评论:(0)  加入收藏
数据在当今世界意味着金钱,随着向基于App的世界的过渡,数据呈指数增长。今天给大家介绍6个开源数据挖掘工具,有需要的朋友可以自取,有更好用的工具也欢迎交流。1、DataMeltData...【详细内容】
2020-08-03  Tags: 数据挖掘  点击:(97)  评论:(0)  加入收藏
在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。这些数据最终会被加上标签,用于模型的训练。很多的数据科学家和机...【详细内容】
2020-07-22  Tags: 数据挖掘  点击:(86)  评论:(0)  加入收藏
数据挖掘会饱和吗?学大数据还有机会吗?这是很多计算机专业的学生,编程和算法技术员考虑的问题。数据挖掘不是独立市场,而是解决各领域问题的方法和工具,生物、制造、零售、金融...【详细内容】
2020-07-14  Tags: 数据挖掘  点击:(98)  评论:(0)  加入收藏
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析...【详细内容】
2020-06-10  Tags: 数据挖掘  点击:(116)  评论:(0)  加入收藏
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost,...【详细内容】
2019-11-14  Tags: 数据挖掘  点击:(332)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(3)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条