时序分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。
时序问题都看成是回归问题,只是回归的方式(线性回归、树模型、深度学习等)有一定的区别。
时序分析包括静态时序分析(STA)和动态时序分析。
循环神经网络是指一个随着时间的推移,重复发生的结构。在自然语言处理(NLP),语音图像等多个领域均有非常广泛的应用。RNN网络和其他网络最大的不同就在于RNN能够实现某种“记忆功能”,是进行时间序列分析时最好的选择。如同人类能够凭借自己过往的记忆更好地认识这个世界一样。RNN也实现了类似于人脑的这一机制,对所处理过的信息留存有一定的记忆,而不像其他类型的神经网络并不能对处理过的信息留存记忆。
优点:
具有时间记忆功能,适用于解决时间序列中间隔较短的问题;
缺点:
对较远时间步的数据易产生梯度消失、梯度爆炸的问题;
长短时记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
优点:
适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
缺点:
参数量过大、易产生过拟合的问题。
自回归模型(Autoregressive Model,简称 AR 模型)是一种时间序列分析方法,用于描述一个时间序列变量与其过去值之间的关系。AR模型假设当前观测值与过去的观测值之间存在线性关系,通过使用过去的观测值来预测未来的观测值。
优点:
缺点:
移动平均法(MA):该方法基于数据的平均数,并假设未来的值与过去的值之间具有一定的平稳性。
优点:
能够捕捉到时间序列数据中的移动平均关系。MA模型利用过去时间步白噪声误差项的线性组合来预测当前观测值,因此可以捕捉到数据中的移动平均性。
相对简单和直观。MA模型的参数表示过去时间步白噪声误差项的权重,可以通过估计这些权重来拟合模型。
缺点:
自回归滑动平均模型(ARMA模型,Auto-Regression and Moving AverageModel)是研究时间序列的重要方法,由自回归模型(AR模型)与滑动平均模型(MA模型)为基础“混合”而成,具有适用范围广、预测误差小的特点。
ARIMA模型全称为自回归差分移动平均模型(Autoregressive Integrated Moving Average Model)。ARIMA模型主要由三部分构成,分别为自回归模型(AR)、差分过程(I)和移动平均模型(MA)。
ARIMA模型的基本思想是利用数据本身的历史信息来预测未来。一个时间点上的标签值既受过去一段时间内的标签值影响,也受过去一段时间内的偶然事件的影响,这就是说,ARIMA模型假设:标签值是围绕着时间的大趋势而波动的,其中趋势是受历史标签影响构成的,波动是受一段时间内的偶然事件影响构成的,且大趋势本身不一定是稳定的
简而言之,ARIMA模型就是试图通过数据的自相关性和差分的方式,提取出隐藏在数据背后的时间序列模式,然后用这些模式来预测未来的数据。其中:
结合这三部分,ARIMA模型既可以捕捉到数据的趋势变化,又可以处理那些有临时、突发的变化或者噪声较大的数据。所以,ARIMA模型在很多时间序列预测问题中都有很好的表现。
优点:
模型十分简单,只需要内生变量而不需要借助其他外生变量。(所谓内生变量指的应该是仅依赖于该数据本身,而不像回归需要其他变量)
缺点:
要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。
本质上只能捕捉线性关系,而不能捕捉非线性关系。
SARIMA 是一种常用的时序分析方法,它是 ARIMA 模型在季节性数据上的扩展。SARIMA 模型可以用于预测季节性时间序列数据,例如每年的销售额或每周的网站访问量。下面是SARIMA模型的优缺点:
优点:
缺点:
具有外生回归量的季节性自回归整合移动平均模型(Seasonal Autoregressive Integrated Moving-Average with Exogenous Regressors, SARIMAX)是在差分移动自回归模型(ARIMA)的基础上加上季节(S,Seasonal)和外部因素(X,eXogenous)。也就是说以ARIMA基础加上周期性和季节性,适用于时间序列中带有明显周期性和季节性特征的数据。
这类方法以 lightgbm、xgboost 为代表,一般就是把时序问题转换为监督学习,通过特征工程和机器学习方法去预测;这种模型可以解决绝大多数的复杂的时序预测模型。支持复杂的数据建模,支持多变量协同回归,支持非线性问题。
不过这种方法需要较为复杂的人工特征过程部分,特征工程需要一定的专业知识或者丰富的想象力。特征工程能力的高低往往决定了机器学习的上限,而机器学习方法只是尽可能的逼近这个上限。特征建立好之后,就可以直接套用树模型算法 lightgbm/xgboost,这两个模型是十分常见的快速成模方法,除此之外,他们还有以下特点:
具体选择哪种方法需要根据数据的性质、问题的特点以及自身的经验和能力来综合考量。
需要根据具体的数据特征、问题要求和自身的能力来选择合适的时间序列预测方法。有时,结合多个方法可以提高预测的准确性和稳定性。同时,为了更好地选择模型和评估预测结果,对数据进行可视化分析和模型诊断也是很重要的。