时间序列数据处理

  • 数据在观测时间上连续,数据长度不可用
  • 主要用于实时交互、趋势预测、实时交互与预警等
  • 常见:语音识别,生物信号处理
  • 传统模型:一元线性回归:线性回归数据,最小化噪声,回归完的模型可以用来预测,数据量有限

  • 另:多元高次回归(找超平面)和多项式回归
    • 高次回归:在高次项上回归多个基底。 ,找最优参数
  • 趋势,周期,随机扰动:时间序列的一些重要参数
  • 生成信号:可以生成具有上面的参数的信号
  • 生成的多组信号可相加也可相乘
  • 加和成分分解:seasonal-decompose
  • 信号平滑与滤波:除噪声
    • 划窗滤波:等权均值,距离加权(相对于均值划窗能保留更多趋势信息),卡尔曼滤波等
  • 平稳序列
    • 一般的回归loss:均方差
    • 平稳序列:信号系统物理特征无变化(无趋势性变化,无周期波动,自方差和自协方差稳定)
      • 自协方差不稳定将对loss产生极高的干扰。loss不能跟采样精度相关
    • 自相关结构:带有延迟的随机量
    • 序列平稳定义
      • 严平稳时间序列:在任意时间点向后作一段观测,再在另一个时间点作同样观测,均值、方差和自协方差相等
      • 弱平稳序列:上面的均值、方差、自协方差与时间无关,不一定相等,无法通过回归找到t与这些量的相关性
  • 平稳性检验:ADF
    • statsmodels。tsa。stattools:adfuller:返回一大堆值
    • adf负值越大,越平稳
    • pvalue越低越大概率拒绝非平稳假设
    • 观察次数越多判断置信度越高
  • 将序列转换为平稳序列:
    • 趋势消除(趋势:可以通过多次差分转换为直流分量)
    • 异方差消除(一般与指数级的数据相关)
    • 自相关消除
    • 去周期性
    • 循环上面的几步,直到特征平稳
  • 可通过差分消除趋势
  • 可调包实现:在adfuller里找,添加regression参数。
  • 各种回归操作不能让结果改善,数据就是平稳的

ARMA

  • 移动窗口平滑模型:该操作带来的损失可以用于回归 MA模型
  • 序列自相关回归模型(AR:自回归模型)
  • 利用AIC(赤池信息量,越小越好)或BIC准则选择阶数

序列特征提取

  • 利用时间序列的分段特征,认为视频流等可以被切成token
  • match:用核函数进行滑窗卷积
  • 卷积核:发现模式,概率图与HMM:分段,降采样 - 谱特征提取:傅立叶变换,分离基频,以基频定标,滤波,归一化
  • PCA:对多个信号对复合,并不能拆出各成分
  • 独立成分分解:ICA,物理意义为内部信息量最小化。ICA非正交(分解方向为信号自相关性强,信号间互相关性弱的方向),PCA正交

  • 事件相关分析:自身信号平移一段后叠加得特征,可以赋予语意。