高维变量选择问题的一点总结 - Tao Gao

近十年来，不管是统计界还是计算机界，高维数据问题依然是最热的话题。大数据时代带来的不仅仅是海量的数据，更多的是数据的复杂性和维度的多样性。对于一个个体的描述，我们不再仅仅是通过几个体征属性来描述，并试图通过一些方法来对个体做推断。伴随着互联网用户行为数据的收集、个体生理指标的测量，纵向数据、函数型数据、Tensor型数据大量涌现，描述个体的角度变得丰富多彩起来，我们总希望从这些复杂的关系中拨开云雾，发现数据间千丝万缕的关系，进而推断因果、预测未来。我不知道后面几十年这个目标是否可以实现，但是从目前的进展看，似乎还是有希望的。

gene

在这个背景下，我也赶了潮流，这一年基本都浸淫在高维问题中，也算熟悉了其中的一些理论。不过看多了高维问题也确实让人感到厌倦和烦躁，总感觉外表很酷，头脑干瘪，丧失了不少统计的味道。相反，有时简洁有趣的数据分析反而让人感觉更舒服，毕竟具体、实际的问题相比到处泛滥的理论更吸引人。

目前我的这些总结还不多，很多东西都记录的是自己感兴趣的部分。其中主要沿着Fan 2001年的关于Concave Penalty的思路以及后续的发展进行了总结。他的文章对Penalty的问题讨论的很细致很深刻，2013年Fan又进一步提出了Folded Concave Penalty的一些性质，发展了一个较为统一的框架，结合2008年Zou提出的LLA算法，Concave Penalty的求解问题也变得快速，不需要Lasso问题的那些限制条件也具有良好的理论性质。不过正如Fan自己所说，如果没有之前对Lasso问题的详细讨论，LLA算法也不会提出来，虽然与LQA只是一个泰勒展开阶数的差别，但是实际效果却大不一样。潮流总在变化，估计Fan也是不甘心他的思路被现在各种五花八门的Penalty给淹没了吧。

总结文档在Github上，欢迎补充Lasso方面的内容，后续我会添加一些关于高维矩阵方面的心得。