流形学习的研究

时间:2022-10-19 18:40:04 来源:网友投稿

摘要:文章介绍了流形学习基本思想、目前的最新研究成果,同时,简要叙述了流形学习算法的概念。流形学习作为一种新兴的降维手段,其目的是发现嵌入在高维欧氏空间中的低维光滑流形数据结构,并给出有效的低维表示。目前,随着计算机信息网络的飞速发展,流形学习已成为模式识别、机器学习和数据挖掘等领域的热点研究项目。

关键词:流形学习;模式识别;维数降维;机器学习

中图分类号:TP18文献标识码:A文章编号:1006-8937(2011)08-0103-02

人类社会已经迈入了信息时代,信息量,信息传播的速度,信息处理的速度以及应用信息的程度等都以几何级数的方式在增长, 在信息时代的科学研究过程中,不可避免的会遇到大量的高维数据,为了从海量的高维数据中获取低维流形结构数据,即找到高维空间中的低维流形,以实现维数的约简化或者数据的可视化。假设采样的数据是均匀位于一个高维欧氏空间中的低维流形,而我们所研究的流形学习就是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效低维表示。利用这种方法不但能够较好地处理由于海量高维数据所产生的“维数灾难”问题,而且可以从观测到的数据现象中去寻找事物的本质,解决信息资源巨大浪费与知识匮乏之间的矛盾,从而能够进一步得到产生数据的内在规律。

1流形学习研究对数据降维的作用及意义

随着科学技术的进步,尤其是现代信息产业的发展,把我们带入了一个崭新的信息时代。为了从海量的高维数据中获取低维流形结构数据,找到高维空间中的低维流形结构,以实现维数的约简化或者数据的可视化。在实际的应用中,从高维数据中采集的观测点可以通过相应映射模拟成可能带有噪音的低维非线性流形上的样本点或者逼近这些样本点的数据。因此,数据降维尤其是非线性降维已经成为了数据挖掘的一个较为重要的手段,而其中进行降维的目的是为了从高维空间中寻找出隐藏在其中的低维结构。 在近几年的研究中,非线性降维在机器学习、数据挖掘、计算机视觉和图像分析等许多研究领域都吸引了研究人员们的广泛关注。目前,在流形学习的研究中已经发展出了一些有效的算法来进行非线性降维。假设采样的数据是均匀位于一个高维欧氏空间中的低维流形,而我们所研究的流形学习就是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效低维表示。利用这种方法不但能够较好地处理由于海量高维数据所产生的“维数灾难”问题,而且可以从观测到的数据现象中去寻找事物的本质,解决信息资源巨大浪费与知识匮乏之间的矛盾,从而能够进一步得到产生数据的内在规律。

流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的线性判别分析(LDA)和方法如主成分分析(PCA),非线行流形学习算法包括等距映射(Isomap)和拉普拉斯特征映射(LE)等。

如何从大量的数据库中排除种种繁杂冗余的信息,从中提取有价值的信息,并且进一步提高信息的利用率和使用率,发现数据中存在的关系和规则,掌握现有数据预测未来发展趋势的能力。从几何学角度来看,这种嵌入在高维数据中的低维线性或非线性流行的维数约简,很好的保留了原始数据的基本几何性,就是说在高维空间中相邻的点在嵌入空间中也相邻。

在目前的维数简约算法中,利用独立分量分析、主成分分析(PCA)等方法可以很好的处理高维数据集中具有线性结构和高斯分布的数据集,例如,主成分分析将方差的大小作为衡量信息量多少的标准,当方差越大时,提供的信息越多,方差越小时,提供的信息越小。在处理图像上,傅里叶变换将数据集变换到频域進行约简,小波变换增加时域信息。但是,当数据集在高维空间呈现高度扭曲,用以上方法处理高维非线性数据集并不能找到其真正的分布结构。而就现实中的实验数据来说,一般都是非线性数据,并且一般都是分布在高维空间中,所以流形学习提供了一种新的研究途径,一种非线性降维技术, 目的是寻找嵌入在高维数据中的低维流形结构, 这种嵌入方法保留了原始实验数据的几何特性, 即在高维空间中临近的点在嵌入空间中也相邻。低维空间中的特定的流形结构减少了数据空间变化的自由度, 这是是数据规律性的发现, 由此可以实现高维数据降维的目的。

2流形学习的算法

2.1流形学习的定义

流形学习基本思想为:是一种新的机器学习方法,我们可以把高维观测空间中的点看作是由少数的、具有独立变量的、共同作用在观测样本空间的一个流形,为了把该数据集进行降维,需要通过某种算法,得到观测空间卷曲的流形或发现其内在的主要变量。

2.2基于流形学习的方法——局部线性嵌入LLE

(locally linear embedding)

局部线性嵌入LLE算法的基本思想:局部线性嵌入算法是一种依赖于局部线性的流形算法,假定观测数据集位于一个高维空间的低维嵌入流形上, 并且嵌入空间与内在低维空间对应的局部邻域中数据点保持相同的局部近邻关系。

2.3基于流形学习的方法——ISOMAP

首先提出多维尺度变换 (MDS)这个概念。MDS 是一种非监督的维数约简方法,MDS的基本思想:约简后低维空间中任意两点间的距离应该与它们在原始空间中的距离相同。

2.4拉普拉斯特征映射(Laplacian Eigenmap)

基本思想:在高维空间中离得很近的点投影到低维空间中的象也应该离得很近,通过使用两点间的加权距离作为损失函数,可求得相应的降维结果。

3结语

流形学习的主要目的是找出嵌入在高维空间中的低维流形结构,这种算法作为一种新的数据降维方法,解决了降维的问题。

参考文献:

[1] 王自强,钱旭,孔敏.流形学习算法综述.计算机工程与应用, 2008,44(35).

[2] 詹德川,周志华.基于集成的流形学习可视化[J].计算机研 究与发展,2005,42(9):1533-1537.

[3] Roweis S,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500): 2323-2326.

[4] 罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机 研究与发展,2006,43(7):1173-1179.

[5] Seung H S,Lee D D.The manifold ways of perception [J]. Science,2000,290(5500):2268-2269.

推荐访问:流形 研究 学习