2 min read

高维变量选择问题的一点总结

近十年来,不管是统计界还是计算机界,高维数据问题依然是最热的话题。大数据时代带来的不仅仅是海量的数据,更多的是数据的复杂性和维度的多样性。对于一个个体的描述,我们不再仅仅是通过几个体征属性来描述,并试图通过一些方法来对个体做推断。伴随着互联网用户行为数据的收集、个体生理指标的测量,纵向数据、函数型数据、Tensor型数据大量涌现,描述个体的角度变得丰富多彩起来,我们总希望从这些复杂的关系中拨开云雾,发现数据间千丝万缕的关系,进而推断因果、预测未来。我不知道后面几十年这个目标是否可以实现,但是从目前的进展看,似乎还是有希望的。

gene

在这个背景下,我也赶了潮流,这一年基本都浸淫在高维问题中,也算熟悉了其中的一些理论。不过看多了高维问题也确实让人感到厌倦和烦躁,总感觉外表很酷,头脑干瘪,丧失了不少统计的味道。相反,有时简洁有趣的数据分析反而让人感觉更舒服,毕竟具体、实际的问题相比到处泛滥的理论更吸引人。

目前我的这些总结还不多,很多东西都记录的是自己感兴趣的部分。其中主要沿着Fan 2001年的关于Concave Penalty的思路以及后续的发展进行了总结。他的文章对Penalty的问题讨论的很细致很深刻,2013年Fan又进一步提出了Folded Concave Penalty的一些性质,发展了一个较为统一的框架,结合2008年Zou提出的LLA算法,Concave Penalty的求解问题也变得快速,不需要Lasso问题的那些限制条件也具有良好的理论性质。不过正如Fan自己所说,如果没有之前对Lasso问题的详细讨论,LLA算法也不会提出来,虽然与LQA只是一个泰勒展开阶数的差别,但是实际效果却大不一样。潮流总在变化,估计Fan也是不甘心他的思路被现在各种五花八门的Penalty给淹没了吧。

总结文档在Github上,欢迎补充Lasso方面的内容,后续我会添加一些关于高维矩阵方面的心得。