分布式计算、统计学习与ADMM算法

2014 年 02 月 11 日 | 标签: 算法

在整理旧电脑时,才发现13年下半年电脑里有不少残文。老师说,东西搁下了再拿起来花费的时间和之前可能差不多。我一眼看过去这篇关于分布式计算的文章,貌似还真的没有了当时理解的深度和感觉。当时还想利用ADMM算法,把统计中常见的带惩罚的高维问题在此框架下用R重写一下,但是中途多种事情一耽搁,就早已抛之脑后。看来任何事情,真的还是需要坚持,哪怕拨点时间都是好的。先把一篇残文扔出来祭奠下过去的13年吧。公式多文字长,慎入!


业界一直在谈论大数据,对于统计而言,大数据其实意味着要不是样本量增加$n \rightarrow \infty$,要不就是维度的增加$p \rightarrow \infty$,亦或者两者同时增加,并且维度与样本量的增长速度呈线性或者指数型增长。在稀疏性的假设条件下,再加上一些正则性方法,统计学家可以证明各种加penalty的模型所给出的参数估计具有良好的统计性质,收敛速度也有保证,同时还会给出一些比较好的迭代算法,但是,他们并没有考虑真实环境下的所消耗的计算时间。虽然统计学家也希望尽量寻求迭代数目比较少的算法(比如one-step估计),但是面对真实的Gb级别以上的数据,很多时候我们还是无法直接用这些算法,原因是一般的硬件都无法支撑直接对所有数据进行运算的要求。如果想减少抽样误差,不想抽样,又想提高估计的精度,那么还是需要寻求其他思路,结合已有的模型思想来解决这些问题。在目前条件下,并行化、分布式计算是一种比较好的解决思路,利用多核和多机器的优势,这些好算法便可以大规模应用,处理大数据优势便体现出来了。对于统计而言,数据量越大当然信息越可能充分(假设冗余成分不是特别多),因为大样本性质本身就希望样本越多越好嘛。

本文是基于Stephen Boyd 2011年的文章《Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers》进行的翻译和总结。Boyd也给出了利用matlab的CVX包实现的多种优化问题的matlab示例

阅读全文→

PKU暑期高维统计学习心得(II)

2013 年 08 月 10 日 | 标签: 感想统计理论

前言

距上一篇时间颇长,不过继续Jiashun老师的讲课心得。上一篇谈到稀疏、弱信号的一种处理框架——Higher Criticism,在分类、聚类等领域可以有比较好的应用。具体如何应用,此处不详谈,大家可以看看他第二节课的PPT以及该篇论文。在第二节课结束时,他提了一个结论:

Surprisingly, penalization methods (e.g., the L0-penalization method) are not optimal for rare/weak signals, even in very simple settings and even with the tuning parameters ideally set。

也就是说在稀疏、弱信号下,由L0衍生出来的方法并不是最优的,比较容易出问题。虽然我依稀记得某些论文模拟显示信噪比过低时候不少penalty方法结果并不太好,不过Jiashun老师的这个结论还是让我比较吃惊,毕竟被很正经的提出来了,而且他还有相对的解决方案!着实让我很感兴趣。

阅读全文→

PKU暑期高维统计学习心得(I)

2013 年 07 月 19 日 | 标签: 感想统计理论

印象

为其两个周的北大关于高维统计的暑期课程即将告一段落,我回来奔跑了两周,身体略感疲惫,现在总算可以休息下,然后停下来消化下讲过的内容。

这次来讲课的老师学术能力都很强,都是四大paper等身的青年学者。老师们讲课的风格不一,最好玩的当属Tiefeng Jiang老师,他讲起课来就像说东北二人转,段子一个接一个,东北味的口音让我第一节课毫不犯困。而且深入浅出,随机矩阵这种比较数学的研究领域,也被他讲的比较好理解。不过后面由于有事情,以及之后的内容过于数学化,我就没有再跟下去了。Zhu Ji老师讲的很细致,不过内容偏简单了,听了两节课后我也没有跟下去。Cun-Hui Zhang老师做的很理论,深厚的数理分析功底,以及对高维问题理解的深刻让我感觉很敬畏,不敢靠近。对他后面做的scaled lasso和LPDE的结果很感兴趣,想用来做点检验的试验,不过邮件找老师要代码现在还没有回复,略感伤心,看来只能过几天自己写了。Yang Feng老师很年轻,在Fan老师那边做了很多非常好的工作,不过由于之前我看了不少Fan老师的东西,对他的讲的思路相对比较熟悉,也就没有太用心听而刷微博、做项目去了,真是一大罪过啊!

整个课程中对统计所持的观点和态度,我最欣赏的是Hui Zou和Jiashun Jin老师。

阅读全文→

高维变量选择问题的一点总结

2013 年 07 月 05 日 | 标签: 统计理论

近十年来,不管是统计界还是计算机界,高维数据问题依然是最热的话题。大数据时代带来的不仅仅是海量的数据,更多的是数据的复杂性和维度的多样性。对于一个个体的描述,我们不再仅仅是通过几个体征属性来描述,并试图通过一些方法来对个体做推断。伴随着互联网用户行为数据的收集、个体生理指标的测量,纵向数据、函数型数据、Tensor型数据大量涌现,描述个体的角度变得丰富多彩起来,我们总希望从这些复杂的关系中拨开云雾,发现数据间千丝万缕的关系,进而推断因果、预测未来。我不知道后面几十年这个目标是否可以实现,但是从目前的进展看,似乎还是有希望的。

gene

在这个背景下,我也赶了潮流,这一年基本都浸淫在高维问题中,也算熟悉了其中的一些理论。不过看多了高维问题也确实让人感到厌倦和烦躁,总感觉外表很酷,头脑干瘪,丧失了不少统计的味道。相反,有时简洁有趣的数据分析反而让人感觉更舒服,毕竟具体、实际的问题相比到处泛滥的理论更吸引人。

目前我的这些总结还不多,很多东西都记录的是自己感兴趣的部分。其中主要沿着Fan 2001年的关于Concave Penalty的思路以及后续的发展进行了总结。他的文章对Penalty的问题讨论的很细致很深刻,2013年Fan又进一步提出了Folded Concave Penalty的一些性质,发展了一个较为统一的框架,结合2008年Zou提出的LLA算法,Concave Penalty的求解问题也变得快速,不需要Lasso问题的那些限制条件也具有良好的理论性质。不过正如Fan自己所说,如果没有之前对Lasso问题的详细讨论,LLA算法也不会提出来,虽然与LQA只是一个泰勒展开阶数的差别,但是实际效果却大不一样。潮流总在变化,估计Fan也是不甘心他的思路被现在各种五花八门的Penalty给淹没了吧。

总结文档在Github上,欢迎补充Lasso方面的内容,后续我会添加一些关于高维矩阵方面的心得。

阅读全文→