实用机器学习：什么是机器学习？看完就明白了

时间：2020-07-10 09:58:01 来源：作者：

随着计算机和互联网越来越深入到生活中的方方面面,人们搜集到的数据也呈指数级的增长。在这种情况下,大数据( big data )应运而生。大数据通常体量特别大,而且数据比较复杂,使得无法直接使用传统的数据库工具对其进行存储和管理。大数据带来了很多挑战,如数据的搜集、整理、存储、共享、分析和可视化等。广义的大数据处理涵盖了上述所有领域;狭义的大数据更多是指如何使用机器学习来分析大数据,从海量的数据中分析出有用的信息。

大数据分析的核心是机器学习算法。很多时候,我们有足够的数据,但是对如何利用这些数据缺乏理解。同时,实际问题往往比较复杂,并不能直接套用机器学习算法,我们需要对实际问题进行一些转化,使得机器学习算法可以应用。虽然实际问题表现形式各异,但是在将它们转化为机器学习能够处理的问题时一般转化为如下4类问题: (1)回归问题; (2)分类问题; (3)推荐问题; (4)排序问题。这4类问题是实际应用中最主要的类型,覆盖了大部分实际问题。在1.3节,我们将详细介绍每类问题的具体例子。

1.1什么是机器学习

机器学习( machine learning )是计算机科学的一个分支,也可以认为是模式识别( pattern

recognition )、人工智能( artificial intelligence )、统计学( statistics )、数据挖掘( data mining )等多个学科的交叉学科。机器学习与数值优化( numerical optimization )也有很高的重合度。

机器学习研究如何从数据中学习出有效的模型,进而能对未来作出预测。例如,如果商店能够预测某件商品在未来一段时间的销售量,就可以提前预订相应数量的商品,这样既可以避免缺货,又可以避免进太多货而造成积压。与传统的决策算法不同的是,机器学习算法依赖于数据。在前面的例子中,我们要从历史数据中学习出相应的模型以对未来进行预测。这样做有两个好处:第一,由于算法依赖于数据,可以使用新的数据来不停地更新模型,使得模型能够自适应地处理新的数据;第二,对人的介入要求少。在使用机器学习的过程中,虽然也会尽量利用人的经验,但更多地强调如何利用人的经验知识从数据中训练得到更好的模型。

目前,机器学习已成为研究和应用的热点之一。一些能够使用机器学习解决的实际问题包括:

根据信用卡交易的历史数据,判定哪些交易是欺诈交易;

从字母、数字或者汉字图像中有效地识别出相应的字符;

根据用户以往的购物历史来给用户推荐新的商品;

根据用户当前的查询和以往的消费历史向其推荐适合的网页、商品等根据汽车的发动机排量、年份、类型、重量等信息估计汽车的耗油星。

虽然这些问题的具体形式不同,但是均可转化成机器学习可以解答的问题形式。

从概念上讲,在机器学习中,我们的目标是从给定的数据集中学习出一个模型,使得它能够有效地从输数据中预测我们感兴趣的量。根据问题的不同,我们感兴趣的量(或者叫目标值)可以有不同的形式。例如,在分类问题中,目标值就是若干类别之一;在排序问题中,目标值就是关于文档的一个序列。

在机器学习中,通常我们解决问题的流程如下:

(1)搜集足够多的数据;

(2)通过分析问题本身或者分析数据,我们认为模型堤可以从数据中学习出来的;

(3)选择合适的模型和算法,从数据中学习出模型f;

(4)评价模型f,并将其利用在实际中处理新的数据。

在实际中,还需要根据应用的实际情况及时更新模型例如,若数据发生了显著变化,则需要更新模型t。因此,在实际部署机器学习模型时,上面的第3步和第4步是一个循环反复的过程。

一个经常与机器学习同时提起的相关领域是数据挖掘( data mining )。数据挖掘和机器学习在很多时候都被(不严格地)混用,因为这两者有很多重叠的地方。传统意义上,机器学习更加注重于算法和理论方面,而数据挖掘更加注重实践方面。数据挖掘中的很多算法都来自于机器学习或者相关领域,少数来自于数据挖掘领域,如关联规则( association rule )。

另一个与机器学习关联很深的领域是统计学。在统计学中,我们学习了很多传统的处理数据的方法,包括数据统计量的计算、模型的参数估计、假设检验等。但在实际问题中,很多情况下我们并不能直接使用统计学中的方法来解决问题。一方面,随着数据规模的扩大,统计学中很多传统的数据分析方法需要通过大量的计算才能得到结果,时效性不高;另一方面,传统的统计学方法更多地考虑了算法在数学上的性质,而忽略了如何在实际中更好地应用这些算法。

1.2实际应用

在本节中,我们将会介绍一些可用机器学习解决的实际问题,包括病人住院时间预测、信用分数估计、Nettix上的影片推荐和酒店推荐。每个例子都对应一类不同的机器学习问题。通过这些不同类型的机器学习问题,读者对机器学习可以有更多直观的感受。

1.2.1 病人住院时间预测

机器学习在医疗行业有着广泛的应用。我们以Heritage Health Prize竞赛作为例子以说明如何使用机器学习来预测病人未来的住院时间。

在美国每年都有超过7000万人次住院。根据相关统计, 2006年在护理病人住院上所花的无关费用就已经超过了300亿美元。如果我们能够根据病人的病历提前预测病人将来的住院时间,那么就可以根据病人的具体情况提前做好相关准备从而减少那些无谓的开销。同时,医院可以提前向病人发出预警,这样就能在降低医疗成本的同时提高服务质量。在从2011年开始的Heritage Health Prize竞赛( HHP )中,竞争者成功地使用机器学习的方法,由病人的历史记录预测了病人在未来一年的住院时间。图1-1显示了竞赛中使用的病历数据的一部分样本。

图1-1 病历数据示例

1.2.2信用分数估计

在现实生活中,向银行申请贷款是比较常见的,如房屋贷款、汽车贷款等。银行在办理个人贷款业务时,会根据申请人的经济情况来估计申请人的还款能力,并根据不同还款能力确定安全的借款金额和相应的条款(如不同的利率)。在美国,每个成年人都有相应的信用分数( credit score ) ,用来衡量和评估借款者的还款能力和风险。

在估计申请者的还款能力时,需要搜集用户的多个方面的信息,包括:

收入情况;

年龄、性别;

职业;

家庭情况,如子女数量等;还款历史,包括未按时还款的记录、还款金额等;现有的各种贷款和欠款情况等。

如何将这些因素综合考虑从而决定借贷者的信用分数呢?直观地讲,可以使用一些简单的规则来确定信用分数。例如,某申请者的当前借款金额很高但收入一定,则进一步借款的风险很高,信用分数将会较低;又如,某申请者的某张信用卡在过去经常没有按时还款,则其信用分数也会较低。虽然使用简单的规则能够大致解决信用分数估计的问题,但是这个办法最大的问题是不能自适应地处理大量数据。随着时间的变化,申请者不还款的风险模型可能会发生变化,因此,相应的规则也需要修改。

银行通常可以得到海量的申请者数据和对应的历史数据。利用机器学习的方法,我们希望可以从这些申请者过去的还款记录中自适应地学习出相应的模型,从而能够“智能”地计算申请者的信用分数以了解贷款的风险。具体地讲,在机器学习模型中,将申请者的信息作为输入,我们可以计算申请者在未来能够按时还款的概率。作为一个典型的例子, FICO分数就是美国FICO公司利用机器学习模型开发出来的一个信用分数模型。

1.2.3 Nettix上的影片推荐

Netflix是美国的一家网络视频点播公司,成立于1997年,到2015年该公司已经有了近7000万的订阅者并且在世界上超过40个国家或地区提供服务。Netflix上的一项很重要的功能是根据用户的历史观看信息和喜好推荐相应的影片,如图1-2所示。2006年10月至2009年9月, Netflix公司举办了Netflix Prize比赛,要求参赛者根据用户对于一些电影评价(1星~5星) ,推测用户对另外一些没有看过电影的评价。如果能够准确地预测用户对于那些没有看过的电影的评价,就可以相应地向这些用户推荐他们感兴趣的电影,从而显著提高推荐系统的性能和Netflix公司的盈利水平。

图1-2 Netflix上的电影推荐

在Netflix Prize赛中,获胜的标准是将Netflix现有推荐系统的性能提高10%。在2009年, Bellkor's Pragmatic Chaos队赢得了比赛。其主要方法是基于矩阵分解的推荐算法,并使用集成学习的方法综合了多种模型。Netflix Prize比赛显著地推动了推荐算法的研究,特别是基于矩阵分解的推荐算法的研究。在本书中,我们也将详细介绍这些推荐算法。

1.2.4 酒店推荐

Expedia是目前世界上最大的在线旅行代理( online travel agency , OTA )之一。它的一项很重要的业务是向用户提供酒店预订,作为用户和大量酒店之间的桥梁。对于用户的每个查询, Expedia需要根据用户的喜好,提供最优的排序结果,这样用户能够方便地从中选出最合适的酒店。

Expedia于2013年年底与国际数据挖掘大会( International Conference on Data Mining , ICDM )联合举办了酒店推荐比赛。在该项比赛中, Expedia提供了实际数据,包括用户的查询以及其对所推荐结果点击或者购买的记录。在进行酒店推荐时, Expedia考虑了如下因素:

用户的位置和酒店的位置;

酒店的特征,如酒店的价格、星级、位置吸引程度等;

用户过去预订酒店的历史,包括价格、酒店类型、酒店星级;·其他竞争对手的信息。

根据用户的查询及用户的背景信息, Expedia返回推荐的酒店序列。在Expedia.com上,典型的酒店搜索界面如图1-3所示。根据返回的推荐结果,用户有3种选择: (1)付款预定推荐的酒店; (2)点击推荐的酒店但没有预订; (3)既没有点击也没有预订。显然,根据用户的反应,我们希望在理想的酒店推荐结果中,对应于第一种选择的酒店能够排在最前面,并且对应于第二种选择的酒店排在对应于第三种选择的酒店前面。

图1-3 在Expedia.com上搜索酒店

1.2.5讨论

上文中的4个例子分别对应于机器学习中的4类典型问题:

回归( regression ) ;

分类(classification ) ;

推荐(recommendation ) ;

排序(ranking)。

在第一类问题中,首先需要为每个病人构建一个特征向量x,然后构建一个函数,使得可以用(x)来预测病人的住院时间y。注意,这里要预测的星(病人的住院时间y)的范围是0-365 (或者366) ,我们可以将其转化为回归问题。在回归问题中,目标变量是一个连续值。

在第二类问题中,需要为每个申请者构建一个特征向量x,而输出y是0或者1,代表批准贷款或者不批准贷款。事实上,输出y也可以是批准的概率。这是机器学习中典型的分类问题。在分类问题中,目标变量y是一个离散变量。与回归问题类似,我们的目标是构建一个函数f,使得fx)可以预测真实的v。在典型的两类分类( binary classification )问题中,目标变量的取值为0或者1 (有时是-1或者1 )。在多类分类( multi-classclassification )问题中,我们有多个类,而目标变量的取值是其中之一。

在第三类问题中,需要根据用户过去的历史为每个用户推荐相应的商品,这是一个典型的推荐问题。与回归和分类问题相比,我们需要为每个用户返回一个感兴趣的商品序列。

在第四类问题中,需要根据用户的输入(在上文的例子中是用户对于酒店的查询) ,从一系列对象(在这个例子中是酒店)中根据用户的需要返回一个对象的序列,使得该序列最前面的对象是用户最想要的。这类问题称为排序(ranking )问题。同前面的回归问题和分类问题相比,排序问题需要考虑整个返回序列。与前面的影片推荐例子相比,在排序问题中我们需要明确的用户输入,而在影片推荐中我们只是根据用户过去的历史信息来进行推荐,用户没有进行明确的输入。

在实际应用中,机器学习的应用远远超出上面的几个例子。例如,近期非常热门的AlphaGo ,谷歌公司在其中使用了深度学习( deep learning )来学习围棋对弈;德国的蒂森克虏伯(ThyssenKrupp )集团作为电梯的主要制造商之一,应用机器学习来预测电梯发生故障的时间从而提前维修,降低电梯的综合运营成本;美国的很多大型零售商在开设新店时,都要搜集各个地区的各种信息和历史销售数据,通过建立机器学习模型的形式选择最优的店址。

本文节选自《实用机器学习》

本书围绕实际数据分析的流程展开，着重介绍数据探索、数据预处理和常用的机器学习算法模型。本书从解决实际问题的角度出发，介绍回归算法、分类算法、推荐算法、排序算法和集成学习算法。本书的最大特色就是贴近工程实践。首先，本书仅侧重介绍当前工业界最常用的机器学习算法，而不追求知识本身的覆盖面；其次，本书在介绍每类机器学习算法时，力求通俗易懂地阐述算法思想，而不追求理论的深度，让读者借助代码获得直观的体验。

Tags：机器学习点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展得很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】

2021-11-08　　Tags: 机器学习点击:(32)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

这是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！英文术语中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】

2021-10-21　　Tags: 机器学习点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

要开始为开源项目做贡献，有一些先决条件：1. 学习一门编程语言：由于在开源贡献中你需要编写代码才能参与开发，你需要学习任意一门编程语言。根据项目的需要，在后期学习另一种语言...【详细内容】

2021-10-20　　Tags: 机器学习点击:(37)　　评论:(0)　　加入收藏

人工智能、机器学习领域13个常见概念

作者：阿米特·V. 乔希（Ameet V Joshi）来源：华章科技 01 人工智能艾伦·图灵（Alan Turing）对人工智能的定义如下：如果窗帘后面有一台机器，并且有人正在与之互动（无论以何...【详细内容】

2021-09-07　　Tags: 机器学习点击:(76)　　评论:(0)　　加入收藏

字节跳动开源云原生机器学习平台 Klever

字节跳动基础架构团队基于火山引擎机器学习平台 Clever 及其丰富的行业落地经验，推出开源项目 Klever，以工程化的方式降低智能技术落地门槛，助力企业快速打造智能业务。作者：陈...【详细内容】

2021-02-19　　Tags: 机器学习点击:(170)　　评论:(0)　　加入收藏

机器学习算法中如何执行回归数据的特征选择

特征选择是识别和选择与目标变量最相关的输入变量子集的过程。特征选择最简单的情况可能是存在数字输入变量和用于回归预测建模的数字目标的情况。这是因为可以计算出每个输...【详细内容】

2021-01-15　　Tags: 机器学习点击:(117)　　评论:(0)　　加入收藏

轻松理解机器学习算法：Adaboost算法

1、集成学习及Boosting算法集成学习属于机器学习，它是一种“训练思路”，并不是某种具体的方法或者算法。集成学习的核心思想是把已有的算法进行结合，从而得到更好的效果。集成...【详细内容】

2020-12-29　　Tags: 机器学习点击:(176)　　评论:(0)　　加入收藏

Python迁移学习：机器学习算法

“终有一天，人工智能会像我们看待非洲平原上低级生物的化石一样看待我们。在人工智能眼中，人类只是直立行走的猿猴，用着粗糙的语言和简陋的工具，从诞生起就注定会灭绝。”&mdash...【详细内容】

2020-12-17　　Tags: 机器学习点击:(147)　　评论:(0)　　加入收藏

一款强大的机器学习可视化IDE

专注Python、AI、大数据，请关注公众号七步编程！人工智能方向的项目，和数据可视化是紧密相连的。模型训练过程中梯度下降过程是什么样的？损失函数的走向如何？训练模型的准确度怎么...【详细内容】

2020-10-15　　Tags: 机器学习点击:(357)　　评论:(0)　　加入收藏

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲(我搞定半个定理都够呛)，或是关于人工智能...【详细内容】

2020-09-25　　Tags: 机器学习点击:(111)　　评论:(0)　　加入收藏

▌简易百科推荐

可解释的AI (XAI)：如何使用LIME 和 SHAP更好地解释模型的预测

作为数据科学家或机器学习从业者，将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中，我将介绍两个...【详细内容】

2021-12-17　　deephub　　　　Tags:AI 　点击:(16)　　评论:(0)　　加入收藏

AI系统中（机器学习算法）导致偏差的原因总结

2021-11-08　　数据学习DataLearner　　　　Tags:机器学习　点击:(32)　　评论:(0)　　加入收藏

人工智能会超过人类吗？顶尖科学家：人工智能在常识判断方面具有局限

11月2日召开的世界顶尖科学家数字未来论坛上，2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】

2021-11-03　　张淑贤　　证券时报　　Tags:人工智能　点击:(39)　　评论:(0)　　加入收藏

火爆业界的边缘计算，到底是什么？

鉴于物联网设备广泛部署、5G快速无线技术闪亮登场，把计算、存储和分析放在靠近数据生成的地方来处理，让边缘计算有了用武之地。边缘计算正在改变全球数百万个设备处理和传输...【详细内容】

2021-10-26　　　　计算机世界　　Tags:边缘计算　点击:(45)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

2021-10-21　　Python部落　　　　Tags:机器学习　点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

2021-10-20　　TSINGSEE青犀视频　　　　Tags:机器学习　点击:(37)　　评论:(0)　　加入收藏

Logistic Regression：最基础的神经网络

SimpleAI.人工智能、机器学习、深度学习还是遥不可及？来这里看看吧~ 从基本的概念、原理、公式，到用生动形象的例子去理解，到动手做实验去感知，到著名案例的学习，到用所学来实现...【详细内容】

2021-10-19　　憨昊昊　　　　Tags:神经网络　点击:(47)　　评论:(0)　　加入收藏

直击痛点 NLP技术的价值和落地｜超级观点

语言是人类思维的基础，当计算机具备了处理自然语言的能力，才具有真正智能的想象。自然语言处理（Natural Language Processing, NLP）作为人工智能（Artificial Intelligence, AI）的核心技术之一，是用计算机来处理、理解以及运...【详细内容】

2021-10-11　　　　36氪　　Tags:NLP 　点击:(49)　　评论:(0)　　加入收藏

边缘计算是个啥？为什么说发展5G离不开它？

边缘计算是什么？近年来，物联网设备数量呈线性增长趋势。根据艾瑞测算， 2020年，中国物联网设备的数量达74亿，预计2025年突破150亿个。同时，设备本身也变得越来越智能化，AI与互联网在...【详细内容】

2021-09-22　　汉智兴科技　　　　Tags: 　点击:(54)　　评论:(0)　　加入收藏

学了这些基础算法，人工智能就算入门了

说起人工智能，大家总把它和科幻电影中的机器人联系起来，而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似，但它们的显著差异在于人工智能...【详细内容】

2021-09-17　　异步社区　　　　Tags:人工智能　点击:(57)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游