压缩感知和深度学习的区别
扫描二维码
随时随地手机看文章
本质上是两个问题。如果一定要找联系,两者都涉及数据的稀疏表达。
压缩感知解决“逆问题”:Ax=b。对于欠定的线性系统,如果已知解具有稀疏性(sparsity),稀疏性可以作为约束或者正则项,提供额外的先验信息。线性逆问题和稀疏性在这类问题中的应用有相对完整的理论体系,楼上 yang liu推荐的 Michael Elad的书是很好的入门教材。
另一类关系密切的问题是低秩矩阵恢复(low-rank matrix recovery),使用low-rank作为先验知识,解关于矩阵的线性逆问题,发展出一套理论。
压缩感知的思想被应用在了更多的领域,比如非线性逆问题。相关的理论正在快速的发展,但是应用已经领先一步。我个人感兴趣的是双线性逆问题(bilinear inverse problem),比如盲反卷积(blind deconvolution)、矩阵分解(matrix factorization)。
在应用压缩感知的过程中,我们发现大部分信号本身并不是稀疏的(即在自然基下的表达不是稀疏的)。但是经过适当的线性变换后是稀疏的(即在我们选择的另一组基(basis)或者框架(frame,我不知道如何翻译)下是稀疏的)。比如谐波提取(harmonic retrieval)中,时域信号不稀疏,但在傅里叶域信号是稀疏的。再比如大部分自然图像不是稀疏的,但经过DCT(离散余先变换)或者wavelet transform(小波变换),可以得到稀疏的表达。一个一度非常热门的研究课题是字典学习(Dictionary Learning)和变换学习(Transform
Learning),通过大量的信号实例,自适应地学习稀疏性表达。
深度学习是机器学习的一种手段,参见楼上Stephen Wang的解释。深度学习中通常都涉及非线性环节。这里数据表达的目的通常不再是数据恢复(recovery),而是分类(classification)等机器学习的任务。
下面是我理解的区别:
在信号处理中的稀疏表达学习(sparse representation learning)侧重对信号建模,即目标是获取原信号的一个忠实的表达(faithful representation)。我们通常需要变换和逆变换,来实现信号的重建(reconstruction)。即使在不需要重建的问题中,我们也需要这种表达能够很好地区分有意义的信号和无意义的噪声(discriminate signal against noise)。所以这类变换通常有很多良好的性质(可逆、很好的条件数(condition numer)等)。
深度学习或者更广泛的机器学习中,数据表达的目标因问题而异,但是通常我们都不需要这种表达过程的可逆性。比如在分类问题中,我们的目标是把数据变换到有“意义”的空间,实现不同类别信号的分离。这种变换可以是线性或非线性的,可以是可逆或不可逆的,可以变换到稀疏的表达或其他有意义的便于分类的表达。