计算机专业外文翻译原文 翻译:非负矩阵分解稀疏性约束.doc
文本预览下载声明
非负矩阵分解稀疏性约束
霍耶帕特里克O.patrik.hoyer@helsinki.fi
对基本的研究单位
计算机科学系
邮政信箱68,fin-00014
赫尔辛基大学
芬兰
编辑:彼得大雁
摘要非负矩阵分解(NMF)是最近发展起来的一项发现部分的基础技术,非负数据的线性表示。虽然它已成功地应用在几个应用程序,它并不总是在结果部分的陈述。在本文中,我们展示了如何明确地将“稀疏”提高了发现分解的概念。此外,我们提供完整的MATLAB代码标准NMF和我们的扩展。我们的希望是,这将进一步研究这些方法来解决新的数据分析问题中的应用。
关键词:非负矩阵分解,稀疏,数据自适应表示1。景区简介
在许多数据分析任务的一个基本问题是要找到一个合适的数据表示。一个有用的表示通常是在数据显式使潜在的结构,往往降低了的数据的维数,进一步的计算方法可以应用。非负矩阵分解(NMF)(paatero和攻丝机,1994;Lee和Seung,1999)是找到这样的表示最近的一个方法。给定一个非负矩阵数据的V,NMF发现一种近似因式分解的V WH为非负因子W和H的非负性约束使表示纯粹的添加剂(不允许删减),与很多其他的线性表示,如主成分分析(PCA)和独立成分分析(ICA)(HYV¨arinen等人。,2001)。一个的NMF最有用的特性,它通常产生一个稀疏表示的数据。这种编码的多用一些积极的成分数据,这使编码容易解释。稀疏编码(场,1994)也,理论基础,被证明是完全分布式的表示之间的一个有用的中间地带,在一方面,一元表示的(祖母细胞)另(F¨我′AK和年轻,1995;索普,1995)。然而,由于稀疏的NMF是有些副作用而不是一个目标,我们无法控制的程度,表示是稀疏的。在许多应用程序的性能,在表示更直接的控制是必要的。
在本文中,我们扩展NMF包括选项来控制稀疏明确。我们表明,这使我们能够发现部分陈述定性优于基本NMF。我们还讨论了我们的方法和其他最近扩展之间的关系NMF(Li等人,2001;霍耶,2002年,刘等人,2003)。
此外,这方面的贡献包括一个完整的MATLAB软件包执行NMF和它的各种扩展。虽然NMF需要最基本的版本只有两行代码,肯定不能保证分配一个单独的软件包,它的几个扩展涉及更复杂的操作,由于缺少现成的代码可能已经阻碍了他们广泛使用至今。我们希望我们的软件套件将缓解这一问题。本文的结构如下。在第2节我们描述了非负矩阵分解,并讨论它的成功,但其局限性。第3节讨论为什么以及如何将稀疏约束到NMF制定。第4节实验结果验证我们的做法。最后,第5和第6的比较我们最近的其他扩展的NMF方法和缔结纸张。2。非负矩阵分解非负矩阵分解是一个线性的,非负近似的数据表示。让我们假设我们的数据T测量,包括N个非负标量变量。记(N维)测量矢量名词(= 1,...,T)的数据的线性近似的是,给定由
其中W是一个N×M矩阵的基础载体WI作为其列。请注意,每个测量矢量被写入在相同的基准矢量。的M基向量可以被认为是无线“积木”的数据,和(M维)系数矢量HT描述了如何强烈每个积木在测量向量及物动词。安排测量向量VT成列的N×T矩阵V我们现在可以编写
其中每列的H含有的测量向量对应的系数向量为ht名词。这种形式写的,很明显的,线性的数据表示的SimPy一个分解数据矩阵。主成分分析,独立分量分析,矢量量化,非负矩阵分解都可以被看作是矩阵分解,用不同的选择的目标函数和/或约束。鉴于PCA和ICA的不以任何方式限制的标志,NMF W和H的条目需要两个非负矩阵的所有条目。这意味着,数据被描述通过使用添加剂成分。激励约束已在一对夫妇的方式。首先,在许多应用中,一个人知道(例如物理学的规则),涉及的数量不能为负数。在这种情况下,它可以是困难的PCA和ICA的解释结果(Paatero和攻丝,1994;帕拉等人,2000)。其次,非负有人为的基础上,直觉的部分一般都结合相加(而不是减少),形成一个整体,因此,学习部分的陈述(李和升,1999),这些限制可能是有用的。给定一个数据矩阵V,定义矩阵W和H的最优选择是那些非负矩阵V和WH之间,最大限度地减少重构误差。各种错误功能已经提出Paatero攻丝机,1994年,李和升(2001),也许是最广泛 使用的平方误差(欧氏距离)函数
图1:非负矩阵分解应用到各种图像数据集。 (一)给定的基准图像通过应用非负矩阵分解CBCL数据库中的人脸图像数据(/cbcl/software-datasets/FaceData2.html)后,李升(1999)。在这种情况下,NMF产生的部分代表性的数据。 (二)依据来自ORL人脸图像数据库的图像(/facedatabase.html),李等人。(2001年)。在这里,的NMF
显示全部