当前位置:首页 » 信托问答 » 方差越大 方差越大说明数据的什么越大

在线服务

方差越大 方差越大说明数据的什么越大

107°c 2022年11月08日 13:23 信托问答 0条评论
  移步手机端

1、打开你手机的二维码扫描APP
2、扫描左则的二维码
3、点击扫描获得的网址
4、可以在手机端阅读此文章

前一篇文章中,我们知道了什么是降维,为什么要降维,降维的方法以及其中一种方法——主成分分析。而今天我们要给大家分享的是另外两种降维方法:线性判别和非线性判别。

方差越大 方差越大说明数据的什么越大

1、线性判别

线性判别分析(Linear Discriminant Analysis, LDA)是另外一种线性降维方法。与主成分分析法不同,线性判别分析是一种有监督学习,也就意味着线性判别分析需要使用带标签的数据进行训练来完成降维。其次,LDA使用了标签信息,它希望同一类样本尽可能近,不同类样本尽可能远。而由于追求的目标不一样,PCA和LDA的投影方向并不一致。

以二分类情况为例,当样本的类别只有两类(0和1)且从d维映射至一维的问题,如下图所示

不同类样本间的投影距离为:

不同类的投影协方差之和为:

此时,LDA的优化目标函数为:

其中 μ 为第 类样本的中心点, 表示第 类样本的协方差矩阵,即 μ μ ; 即需要找到的最佳映射方式,即投影向量。

2、非线性提取

LLE(Locally Linear Embedding-局部线性嵌入)是一种非线性降维算法,和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征(保持原有拓扑结构),能够使降维后的数据较好地保持原有的流形结构 。LLE用局部线性反映全局的非线性的算法,并能够使降维的数据保持原有数据的拓扑结构。(在流形上使用局部线性,并用有限局部样本的互相线性表示,得到几何特性的构造权重矩阵,在低维下找到满足高维时样本间构造权重的样本集) 。

LLE算法认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的主要步骤分为三步:

寻找每个样本点的 k 个近邻点;

由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;

由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

以瑞士卷为例,在 k 选取不同的情况下,降维后样本的局部关系效果有所差异,k 即我们搜索样本的近邻的个数,k 个数越大,则建立样本局部关系的时间会越大,也就意味着算法的复杂度会增加。当然 k 个数越大,则降维后样本的局部关系会保持的更好。一般来说,如果算法运行时间可以接受,我们可以尽量选择一个比较大一些的 k 。

对于LLE算法,我们首先要确定邻域大小的选择,即我们需要多少个邻域样本来线性表示某个样本。假设这个值为 。我们可以通过和KNN一样的思想通过距离度量比如欧氏距离来选择某样本的 个最近邻。

在寻找到某个样本 的 个最近邻之后我们就需要找到 和这 个最近邻之间的线性关系,也就是要找到线性关系的权重系数。找线性关系,这显然是一个回归问题。假设我们有 个 维样本 { },我们可以用均方差作为回归问题的损失函数,即:

其中, 表示 的 个近邻样本集合。一般我们也会对权重系数 做归一化的限制,即权重系数需要满足:

对于不在样本 邻域内的样本 ,我们令对应的 ,这样可以把 扩展到整个数据集的维度。

也就是我们需要通过上面两个式子求出我们的权重系数。一般我们可以通过矩阵和拉格朗日乘子法来求解这个最优化问题。

对于第一个式子,我们先将其矩阵化:

其中, 。

我们令矩阵 ,则第一个式子进一步简化为 ,对于第二个式子,我们可以矩阵化为:

其中, 为 维全1向量。

现在我们将矩阵化的两个式子用拉格朗日乘子法合为一个优化目标:

对 求导并令其值为0,我们得到

即我们的

可以看到这个式子和我们在高位的损失函数几乎相同,唯一的区别是高维的式子中,高维数据已知,目标是求最小值对应的权重系数 ,而我们在低维是权重系数 已知,求对应的低维数据。注意,这里的 以及是 x 维度,之前的 是 x 维度,我们将那些不在邻域位置的 的位置取值为0,将 扩充到 x 维度。

为了得到标准化的低维数据,一般我们也会加入约束条件如下:

首先我们将目标损失函数矩阵化:

方差越大 方差越大说明数据的什么越大

如果我们令 ,则优化函数转变为最小化下式: , 为迹函数。约束函数矩阵化为:

如果大家熟悉谱聚类和PCA的优化,就会发现这里的优化过程几乎一样。其实最小化 对应的 就是 的最小的 个特征值所对应的 个特征向量组成的矩阵。当然我们也可以通过拉格朗日函数来得到这个:

对 求导并令其为0,我们得到 ,即,这样我们就很清楚了,要得到最小的 维数据集,我们需要求出矩阵 最小的 个特征值所对应的 个特征向量组成的矩阵 , , , 即可。

一般的,由于 的最小特征值为0不能反应数据特征,此时对应的特征向量为全1。我们通常选择 的第2个到第 d+1个最小的特征值对应的特征向量 ( 来得到最终的 。为什么 的最小特征值为0呢?这是因为 ,得到 ,由于 ,所以只有 ,即 ( ) ,两边同时左乘 ,即可得到 ( ,即 的最小特征值为0。

彩蛋来啦

每一种降维方法

我们都整理了相对应的Python案例哦,

一切秘密尽在github~

如果你觉得内容还不错~

可以点一下“在看”

或上github帮我们“star”一下~

最后如果你觉得内容还不错,欢迎安利给你的各个小伙伴~

作者简介:浩彬老撕

好玩的数据炼丹师,

曾经的IBM 数据挖掘攻城狮,

还没开始就过气数据科学界的段子手,

致力于数据科学知识分享,不定期送书活动

来源:政信理财网,更多详情请咨询理财顾问:136-2194-8357(微信同)

本文链接:http://www.iwenqu.com/xtwd/94437.html

版权声明:本文为原创文章,版权归 iwenqu 所有,欢迎分享本文,转载请保留出处!

政信理财网购买流程

本文标签:

注明:

余老师专注信托、定融、债券、基金等领域,从业多年,经验丰富!

为中高净值人群提供专业、安全的资产配置和多元化的财富管理服务,帮助投资者实现财富增值!

锁定关注本站即可实时查询,及时获取《最新产品+最新进度+最全资料》
政信理财网

评论(0)

赞助政信理财网

发表评论:


【顶】 【踩】 【好】 【懵】 【赞】 【表情】

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。