时间序列数据处理
时间序列数据处理
- 数据在观测时间上连续,数据长度不可用
- 主要用于实时交互、趋势预测、实时交互与预警等
- 常见:语音识别,生物信号处理
-
传统模型:一元线性回归:线性回归数据,最小化噪声,回归完的模型可以用来预测,数据量有限
- 另:多元高次回归(找超平面)和多项式回归
- 高次回归:在高次项上回归多个基底。 ,找最优参数
- 趋势,周期,随机扰动:时间序列的一些重要参数
- 生成信号:可以生成具有上面的参数的信号
- 生成的多组信号可相加也可相乘
- 加和成分分解:seasonal-decompose
- 信号平滑与滤波:除噪声
- 划窗滤波:等权均值,距离加权(相对于均值划窗能保留更多趋势信息),卡尔曼滤波等
- 平稳序列
- 一般的回归loss:均方差
- 平稳序列:信号系统物理特征无变化(无趋势性变化,无周期波动,自方差和自协方差稳定)
- 自协方差不稳定将对loss产生极高的干扰。loss不能跟采样精度相关
- 自相关结构:带有延迟的随机量
- 序列平稳定义
- 严平稳时间序列:在任意时间点向后作一段观测,再在另一个时间点作同样观测,均值、方差和自协方差相等
- 弱平稳序列:上面的均值、方差、自协方差与时间无关,不一定相等,无法通过回归找到t与这些量的相关性
- 平稳性检验:ADF
- statsmodels。tsa。stattools:adfuller:返回一大堆值
- adf负值越大,越平稳
- pvalue越低越大概率拒绝非平稳假设
- 观察次数越多判断置信度越高
- 将序列转换为平稳序列:
- 趋势消除(趋势:可以通过多次差分转换为直流分量)
- 异方差消除(一般与指数级的数据相关)
- 自相关消除
- 去周期性
- 循环上面的几步,直到特征平稳
- 可通过差分消除趋势
- 可调包实现:在adfuller里找,添加regression参数。
- 各种回归操作不能让结果改善,数据就是平稳的
ARMA
- 移动窗口平滑模型:该操作带来的损失可以用于回归 MA模型
- 序列自相关回归模型(AR:自回归模型)
- 利用AIC(赤池信息量,越小越好)或BIC准则选择阶数
序列特征提取
- 利用时间序列的分段特征,认为视频流等可以被切成token
- match:用核函数进行滑窗卷积
- 卷积核:发现模式,概率图与HMM:分段,降采样 - 谱特征提取:傅立叶变换,分离基频,以基频定标,滤波,归一化
- PCA:对多个信号对复合,并不能拆出各成分
-
独立成分分解:ICA,物理意义为内部信息量最小化。ICA非正交(分解方向为信号自相关性强,信号间互相关性弱的方向),PCA正交
- 事件相关分析:自身信号平移一段后叠加得特征,可以赋予语意。