文 /杨晓宁
随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性,对于大数据环境下的应用问题,传统的小数据上的机器学习算法很多已不再适用。因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。
传统机器学习的问题主要包括如下4个方面:理解并模拟人类的学习过程;针对计算机系统和人类用户之间的自然语言接口的研究;针对不完全的信息进行推理的能力,及自动规划的问题;构造可发现新事物的程序。
传统机器学习面临的一个新挑战是如何处理大数据。由于现有的机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。如何让新机器学习算法适应大数据处理需求,是大数据时代的研究热点之一。
数据分治与并行处理策略是大数据处理的基本策略,尤其是近年来在分布式和并行计算有很大发展的情况下,分治策略显得尤为重要。一般来说,数据中不同样本对学习结果的重要程度并不相同,一些冗余和噪音数据不仅造成大量的存储耗费,降低学习运行效率,还会影响学习进度,因此更倾向于依据一定的性能标准(如保持样本分布、拓扑结构以及保持分类精度等)选择代表性样本形成原样本空间的子集,之后在子集上构造学习方法,完成学习任务。
在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据往往是大数据集,其中包含的属性和记录数据都很大,导致处理算法的执行效率低下,通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。
鲁棒是Robust的译音,是在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,也指控制系统在一定结构、大小的参数摄动下,维持其他某些性能的特性。
在监督学习中面临的挑战是如何处理大数据,面临的两大瓶颈是计算密集几乎不能用于大规模数据集,鲁棒和非参数的置信区间的拟合预测往往是未知的。
国内外学者已开始对机器学习算法进行改进,针对大规模数据的分类问题,在增量核主成分分析和基于共轭梯度的最小二乘支持向量机算法基础上,大数据领域专家卡姆等提出适用于大数据特征提取和分类算法。该算法所需内存较少,无需存储较大矩阵,可更好地解决大规模数据分类问题。类似改进还有很多,常用的改进方法有随机梯度下降、小批量梯度下降、在线学习等。