Francio's Note Station

PKU_CCME

Python PCA-SVD

发表于 2021-05-22

Python PCA SVD

特征分布越平，方差越大，对数据的区分度越好
非正交的基：带来冗余信息
正交性：特征的协方差矩阵。为0则互相独立
协方差矩阵：对角元素为特征的方差，其它为相关性

PCA

主成分分解

先中心化，转置乘自身，得到实对称矩阵，再PCA对角化，此时对角元即为新特征的方差，方差越大区分度越高，舍去小方差即可完成降维
降维后低秩的矩阵为样本提供了更好的分布，将原样本投射到新的维度中。降维可以减小噪音

import sklearn
import numpy as np
from sklearn.preprocessing import StandardScaler

a = np.array([[1,2,3],[2,4,6]])
print(np.mean(a))
print(np.mean(a,axis = 0))
print(np.mean(a,axis = 1))

b = np.array([[[1,2],[3,4]],[[3,4],[5,6]]])
print(np.mean(b,axis = 0))

a_std = StandardScaler().fit_transform(a)
print(a_std)

a_std = StandardScaler(with_std = False).fit_transform(a)
print(a_std)

3.0
[1.5 3.  4.5]
[2. 4.]
[[2. 3.]
 [4. 5.]]
[[-1. -1. -1.]
 [ 1.  1.  1.]]
[[-0.5 -1.  -1.5]
 [ 0.5  1.   1.5]]

二维PCA：最大化协方差矩阵的迹，协方差矩阵基于图像求得
Robust PCA：降噪PCA
- PCA损失函数为F范数，平方误差损失使得最终结果对强噪声敏感
- 加上一个稀疏矩阵（的L1范数）用于允许例外的存在，可以屏蔽稀疏噪声的影响

SVD

奇异值分解

将原特征空间中样本向量重新用一组新的系数和基表达，中间的奇异值矩阵表示向量的拉伸程度，此时的基相当于原样本的”零件”
泛化与泛化损失（推荐系统
泛化界：衡量泛化的程度，维度过低会产生泛化损失。但适当泛化，系统的鲁棒性较好
降维：丢弃奇异值小的主成分
SVD不作中心化，将样本集分解为参数*特征的线型表达，可以加先验（机器学习，神经网络）
PCA用于特征工程，降噪，数据压缩等（分解，特征工程）

降维维度过低：损失较大

谱聚类、社区划分、拉普拉斯矩阵
不好量化的量：按照关系加权