verahe2014-10-13 10:34 AM

大数据时代的高维统计:稀疏主成分分析、最优收敛速度、主子空间极小极大和自适应估计

当下,几乎人人都在讲大数据,但大数据发展也有着比较棘手的问题,一个显著的就是随着数据量的增多,维数增高。蔡教授目前的一大研究方向就是高维统计推断,研究维数p远大于n的情况数据的处理,并探讨对当今社会一些领域的影响。

蔡天文教授(与Ma Zongming、Wu Yihong合写)的这篇发表在2013年第41卷第6期的The Annals of Statistics(《统计年刊》)的文章研究的是在高维情境下主成分子空间的极小极大和自适应估计问题。

主成分分析(principal component analysis, PCA)是多变量分析中最常用使用的统计方法之一,有着广泛的应用,从图像识别到数据压缩到聚合分析,都可见它的身影。在各个应用场合,主成分分析主要是用来进行降维(dimension reduction)和特征提取(feature extraction),尤其适合于数据是高维的(high-dimensional data)、信号是低维度结构的情形。

随着自然科学和技术的进步,基因组、信号处理、风险管理、资产组合分配等众多领域都在常态化地收集高维数据,因此有效地处理和分析高维数据非常重要。在许多此类应用场合,研究者感兴趣的信号存在于低维的子空间,样本间变异由一少部分因素决定。比如,在光谱学分析中,红外光谱和紫外光谱的变异是由系统中少量化学组分的浓度水平决定的;在金融计量经济学中,资产回报的变异被公认为由一少部分共同因素和随机噪声所驱动。这两种情况也就是蔡教授的这篇文章中提到的高维数据、低维信号的情景。

出于多重共线性、高维空间本身具有稀疏性、过度变量会妨碍查找规律、仅在变量层面分析可能导致忽略变量之间的潜在关系等方面的考虑,对高维数据分析的第一步就是对它进行降维,以便减少预测变量的个数、确保变量之间相互独立并能够提供一个理论框架来解释数据分析结果。降维的方法有主成分分析、因子分析和用户自定义复合等。其中主成分分析不仅仅能进行降维,更重要的是通过降维去除了噪声,有利于挖掘数据中的模式。

由于主成分分析最终给出的主成分是原来的数据变量的线性组合,当需要对主成分进行分析和解释时,就无法解释每一个主成分对应的特征是什么。比如,处理基因数据时,可能就无法阐明某些主成分所对应的基因到底怎么解释。当变量特别多时,比如光谱分析,也不好对主成分进行合理的解释。

为了解决这一问题,稀疏主成分分析(Sparse PCA)应运而生。它会把主成分系数变的稀疏,也即把大多数系数都变成零,通过这样一种方式,把主成分的主要的部分凸现出来,这样主成分就会变得较为容易解释。实现主成分分析稀疏化,最终会转化为优化问题,也即对本来的主成分分析中的问题增加一个惩罚函数。这个惩罚函数包含有稀疏度的信息。最终得到的问题是NP-困难问题,为了解决它,就需要采用一些方法逼近这个问题的解。蔡教授等人就介绍了一种新的方法。

本文中,作者首先在温和的技术条件下,为估计主子空间(principal subspace)构建了最优收敛速度(optimal rates of convergence)——这个参数相对于其它参数更为明显——由此提供了关于估计收敛速度难度的完整表征。通过计算局部度量熵(local metric entropy)和应用法诺不等式(Fano’s lemma,也称为Fano’s inequality),获得了下限值(lower bound)。而(收敛)速度最优估计值是通过聚合而构建的,只是在计算上可能是无法实现的。

阐释了上述难题之后,作者引入了一个自适应程序来估计主子空间,这个方法完全是数据驱动的,并且可以有效计算。结果显示在大量收集了参数空间的同时,参数达到了最优收敛速度。这个建模方法的基本思想是一个下降方案,将稀疏主成分分析问题降成高维多元回归问题。这个方法对于解决其他相关问题也可能有用。

备注

1. 关于稀疏主成分分析方法,小编还参考了一篇博客文章和百度百科。

博客文章链接:http://www.cnblogs.com/zhangchaoyang/articles/2222048.html

2. 小编在网上看到今年(2014年)6月24日,蔡教授在北京大学光华管理学院商务统计与经济计量系的统计学研讨会上分享了这篇文章,不知是否有幸遇到听过这次讲座的小伙伴来给我们进一步分享~~~~

Seminar 链接 http://www.gsm.pku.edu.cn/index/P601575251340022537971.html?clipperUrl=438/48946.ghtm

3. 小编在学术研究时运用过主成分分析方法,但非统计学专业人士,因此本文相关概念的翻译、文章措辞如有不当之处,请各位指正。


论文原文

SPARSE PCA: OPTIMAL RATES AND ADAPTIVE ESTIMATION

《稀疏主成分分析:最优收敛速度和自适应估计》发表在2013年第41卷第6期的The Annals of Statistics(《统计年刊》)。


KEYWORDS

SHARE & LIKE

COMMENTS

ABOUT THE AUTHOR

verahe

浙江大学企业管理研究生、工商管理本科。研究方向:企业战略演化、人力资源和组织行为、创新行为、公司治理等。其余感兴趣领域:经济学、心理学、社会学、历史、医学等

15 Following 72 Fans 0 Projects 108 Articles

SIMILAR ARTICLES

国际上:最好的三个:American Economic Review、Econometrica、Journal of Political Economy国内:《经济研究》和《经济学季刊 》国际上经济学期刊排名参考:顶尖期刊:American Economic ReviewEconometricaJou

Read More

1. First Tier Journals1.1. Management (泛管理领域)1.1.1. Academy of Management Journal (AMJ)1.1.2. Academy of Management Review (AMR)1.1.3. Administrative S

Read More

1. The Glass Slipper: "Incorporating" Occupational Identity in Management Studies (水晶鞋:将职业身份纳入管理研究)2. Crowdsourcing As a Solution to Distant Search (众包

Read More

这篇文章研究的是由群体内部经济状况变化带来的群体间的冲突现象。首先研究的模型显示,如果某个群体收入偏低,提高这个群体的收入水平,会导致针对这个群体的暴力侵害增多,但会降低从这个群体产生的暴力冲突。然后文章将这个模型应用到印度的印度教和穆斯林教之间冲突问题。通过分析实际数据,主要的研究结果是:如果增加穆

Read More

小编备注:一共50篇。好多经典的!代理理论、高阶理论、承诺升级、管家理论、利益相关者理论、组织学习、社会资本、吸收能力……还有对授权、工作-家庭角色冲突、制度环境、组织间信任与合作、组织发展与变革、创业、团队创造力和多样性的研究等等,方法(论)上,从案例研究建立理论、理论贡献的构成要素、从过程数据建构

Read More

这项研究针对研发项目团队,探究团队层面的知识共享是否调节了个体层面专业知识相异性对个体员工创造性的影响。这里,专业知识相异性,是指团队中的一个焦点员工与他或她的队员之间所具备的专长和知识的差异性,在这项研究中,专业知识相异性的操作化定义,是按照每个成员所属的研发部门来定义的。作者进行了两项研究,研究对

Read More

1. Building Better Theory: Time and The Specification of When Things Happen (建构更好的理论:时间以及详细说明事件何时发生)2. Exploring Paradox: Toward a More Comprehensive G

Read More

     这篇文章在实验环境下测试了Lagos和Wright(2005)关于货币交换的模型。这个模型有一个独特的货币均衡和一个非货币物物交换均衡连续统。研究发现被试们更喜欢货币均衡而避免物物交换连续统。研究还检验了没有货币存在的其他版本模型,这些模型的均衡都只涉及非货币物物交换。最终研究结果显示,基于

Read More

这篇文章通过使用潜意识道德和不道德启动效应来检验潜意识加工对伦理行为的影响,从而扩展了现有的理论。传统的行为伦理学研究认为伦理决策是理性而审慎的,但Reynolds(2006)的研究则提出了一个双重加工模型(dual process model),包括了意识和潜意识两部分。潜意识加工对伦理行为的影响是

Read More

证券分析师对公司每股盈余(EPS)的预测构成了这些公司重要的业绩目标。公司管理者试图影响分析师的预测值,同时实现EPS目标。借鉴印象管理领域的前人文献,研究针对公司前期的业绩目标如何影响管理者的印象管理活动,提出了一系列假设。这些活动包括发布预测指引、召开分析师会议、发布新闻稿等。这项研究同时考察管理

Read More