高斯过程回归算法工具箱_高斯过程回归

㈠什么是高斯过程其主要性质有哪些

高斯过程（Gaussian Process。GP）是概率论和数理统计中随机过程（stochastic process）的一种，是一系列服从正态分布的随机变量（random variable）在一指数集（index set）内的组合。

高斯过程中任意随机变量的线性组合都服从正态分布，每个有限维分布都是联合正态分布，且其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度，因此被视为联合正态分布的无限维广义延伸。高斯过程由其数学期望和协方差函数完全决定，并继承了正态分布的诸多性质。

高斯过程的例子

高斯过程的例子包括维纳过程、奥恩斯坦-乌伦贝克过程等。

对高斯过程进行建模和预测是机器学习、信号处理等领域的重要内容，其中常见的模型包括高斯过程回归（Gaussian Process Regression，GPR）和高斯过程分类（Gaussian Process Classification，GPC）。

高斯过程的命名来自德国数学家卡尔·弗里德里希·高斯（Carl Friedrich Gauss）以纪念其提出正态分布概念。

㈡如何用mcmc方法估计高斯过程回归参数

高斯过程将多元高斯分布扩展到无限维度。任意数据集中n个观测量，y={y_{1},..,y_{n}}y=y1,..,yn都可以理解成从某个多元高斯分布中抽取的一个样本。高斯过程最重要的应用是解决回归问题。假设训练集数据为y，新数据为y*，那么我们可以根据高斯过程的性质估计新数据的分布。例子：假设我们有下图的历史数据：我们要估计新的数据点x*=0.2的分布。根据上述过程，我们首先有6个观测值y，分别是：从误差线得知\sigma_{n}=0.3，那么根据协方差公式，我们有：根据高斯过程的条件概率公式，我们可以计算出新观测点的均值与方差分别是0.95与0.21。即服从N（0.95，0.21）的高斯分布。

㈢ pattern recognition and machine learning这本书怎么看

作者：Richardmore
这本书可以说是机器学习的经典学习之作。以前在上机器学习这么课的时候，很多细节还没联系到，结果在读论文中就显得捉襟见肘。本文打算理清楚这本书的脉络，也顺便为学习机器学习的人打下一个学习路线图。

1. 排除两块内容

现排除第五章的内容神经网络，之所以把神经网络先单列出来，原因一是一个比较独立的研究脉络，二是因为这部分因为深度学习的原因太热了，所以我认为在学习机器学习中把神经网络单列出来学习，在交大的研究生课程安排中，神经网络是机器学习的后续课程。
对于第6，7章，也不在下面的学习路线中，因为这部分是关于核技巧方面的，主要是就是高斯过程回归，高斯过程分类以及SVM等内容。
2. 一个概率图框架为中心视角

排除了上面几章的内容，PRML书中可以用下面的学习路线图覆盖，通过这个图可以理清楚了各个内容的不同角色。
<img src="https://pic3.mg.com/_b.png" data-rawwidth="1888" data-rawheight="412" class="origin_image zh-lightbox-thumb" width="1888" data-original="https://pic3.mg.com/_r.png">

说明：
（1）一般模型中都会有隐变量因此，，因此对于P（X）的采用MLE学习的另一个技巧,便是第九章 EM算法。条件是在M步时，Q要可以被analytically computed。
（2）至于为什么近似，Exact Inference is hard we resort to approximation
3. 隐变量技巧

下面我们看看另外一个视角：隐变量技巧。隐变量不仅可以使得模型的表达能力丰富起来，而且通常对于隐变量往往富有一定的实际意义。

<img src="https://pic1.mg.com/_b.png" data-rawwidth="1764" data-rawheight="422" class="origin_image zh-lightbox-thumb" width="1764" data-original="https://pic1.mg.com/_r.png">

说明：
（1）这里所谓的结合模型中，在PRML中最后一章仅仅提到了以加法的方式进行模型集合，也就是mixture of experts，在论文Hinton G E. Training procts of experts by minimizing contrastive divergence[J]. Neural computation, 2002, 14(8): 1771-1800. 提出了proct of experts 模型，也就是以乘法的方式进行结合，RBM就是一种特殊的proct of experts 模型，而高斯混合模型便是加法模型的代表。
（2）隐变量的技巧是机器学习中一种重要的技巧，隐变量的加入不仅仅增加了模型的表达能力，而且，隐变量还可以被赋予某种特殊的意义，比如RBM模型中隐变量h被当成显变量v的特征抽象。这当然归根结底是因为隐变量模型确实是现实世界真实存在的情况，unobserved but important variables do exist! 当然隐变量的引入也为模型的推断带来了新的挑战，有很多比较好的隐变量模型往往找不到很高效的方法，而被限制着。
4. 例子说明

下面分别从上面两个视角来分析RBM模型，贝叶斯线性回归和序列模型。
4.1 RBM模型
RBM模型是一个无向2层对称的图模型，从隐变量的视角来看，它是一个以乘法方式结合的distributed models。当然隐变量的引入增加了模型的复杂性和表达能力，但是也为学习，推断带来了问题。对于RBM的参数学习，因为是无向图，所以采用MLE最大化P（X），但是由于此时P（X，Z）难以评估，所以
<img src="https://pic2.mg.com/v2-_b.png" data-rawwidth="834" data-rawheight="94" class="origin_image zh-lightbox-thumb" width="834" data-original="https://pic2.mg.com/v2-_r.png">
很难计算，没有在RBM的学习中不能像高斯混合模型那样可以采取EM算法。因此只能采取最为标准的做法，求取P（X）的梯度，结果梯度公式如下：
<img src="https://pic2.mg.com/v2-_b.png" data-rawwidth="800" data-rawheight="90" class="origin_image zh-lightbox-thumb" width="800" data-original="https://pic2.mg.com/v2-_r.png">

然而对于计算后面的model部分的积分需要知道模型的概率分布，评估模型的概率分布需要计算一个标准化的分母，难以计算。因此就需要依赖近似，由于p（v｜h），p（h｜v）都是可以分析公式表达，因此采用Gibbs sampler来数值逼近积分。当然后来Hinton G E. Training procts of experts by minimizing contrastive divergence[J].发现对于这一部分，Gibbs sampler 不需要多部的迭代，一次迭代就可以了，从而使的训练RBM的时间代价大大降低了，后来（A fast learning algorithm for deep belief nets，2006）提出了贪婪式的训练多层DBN（stacked RBM），每层都是训练RBM，从而使的深度学习焕发新的活力（Recing the dimensionality of data with neural networks，2006）。

4.2 贝叶斯线性回归Bayesian Linear Regression BLR

这个模型是最为基础的，这个模型在PRML中，利用直接推断，变分法推断，MCMC采样都是可以做的；因此便于比较不同算法得到的结果。之前，本来打算在这里以LDA主题模型来举例，虽然LDA的EM算法，变分法，以及Gibbs sampling 都是可以做的，但是模型太复杂，所以果断放弃了，以BLR模型作为例子说明。
BLR是一个有向图模型，是一个典型的贝叶斯网络（虽然简单一点）。如果以一个贝叶斯的视角来看，其中的隐变量便是线性参数w，以及各种超参数α,β.....，在贝叶斯的处理视角之下，这些都会赋予一个先验分布。当然，有些模型书中也提到，有不同层次上的贝叶斯网络。有的是仅仅对参数w赋予一个先验分布，而对于其他的参数（hyperparameter）仅仅是作为模型参数，就是假设是一个渡固定的数值，然后再通过learn evidence function，其实说白了就是MLE，来寻找最佳的超参数α,β....。相比于把线性参数w，以及各种超参数α,β.....全部作为放入到贝叶斯网络中，这样的做法显然简化了模型，降低了贝叶斯网络的复杂性。这个技巧也在多处的论文中出现。
从隐变量的角度来看，由于BLR模型相对简单，其中并没有随机隐变量，仅仅是一些参数w，以及各种超参数α,β..的环境隐变量。
4.3 序列模型：隐马尔可夫链HMM与条件随机CRF

隐马尔可夫链HMM这个模型是一个有向图模型，典型的贝叶斯网络，只不过这个网络是一个线性链（linear chains），因此可以进行分析上推断，要知道对于一般网络，并不存在通用的实用的inference算法。因为HMM是一个有向图模型。但是（1）在PRML书中，以及李航《统计学习》中并没有把其当作一个贝叶斯网络来进行处理，对所有的参数比如发射概率，转移矩阵概率都是模型的参数，而不是通过赋予一个先验分布，从而纳入到贝叶斯网络框架之中。因此对于模型而言，关键的便是通过MLE最大化P（X）来学习模型的参数，因为这里的有隐变量，因此在PRML，以及《统计学习》中都是通过EM算法做的。（2）其实，HMM是一个典型的线性链式的贝叶斯网络，因此对于通过对其参数赋予先验分布，进而从贝叶斯的角度，来对模型进行推断是一个非常自然的想法。我在论文Sharon Goldwater， Thomas L Griffiths 论文 A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging，中作者采用了Bayesian HMM 重新做了POS任务。作者在文中还详细罗列了Bayesian HMM 相比普通的HMM的优点：（a）可以使用先验知识，例如在POS中语言的认知可以加入到先验分布之中，而且（b）贝叶斯的推断，是通过一个后验分布推断参数，相比MLE点估计，会更加准确。对于贝叶斯的推断，作者在文中使用了Gibbs sample抽样实现了数值采样推断模型。最后作者比较了Gibbs sample＋Bayesian HMM和普通的HMM ＋EM，在POS任务效果更加好。另外，对于本论文的作者Thomas L Griffiths，第一次接触这个学者，是在读Gibbs sample in LDA这篇文章，作者推导了LDA的各种的条件分布，然后基于Gibbs sample 进行采样，记得Github上有Java版的实现代码，其推导十分严谨，并且有代码辅助，是学习LDA的一个捷径。在近似推断方面可以看出Thomas L Griffiths是一个坚定的数值采样学派，而LDA的开山之作《Latent Dirichlet Allocation 》的作者David M. Blei，看了作者部分文章以后，发现这个人是在近似推断方面是一个变分法的坚定学派，在《Latent Dirichlet Allocation 》之中，便是通过变分法进行推断了，David M. Blei还写了一个关于变分法的入门讲义pdf，网上可以搜到。所以回看我们概率图视角，做机器学习推断是不可避免的，有的是变分法近似，有的是数值采样近似，也有的是EM算法试一试。至于选择哪一种，就看你的问题哪一个比较简单了。但是好像有的人对这些方面各有偏爱。
再说一下条件随机场CRF，相比与HMM，这也是一个序列模型，在很多的NLP任务中，CRF都是state of art 的算法，毕竟人家可以方便的特征工程嘛。但是这种日子被深度学习取代了，在NLP方面，RNN（递归神经网络）要比CRF表现更好，见我之前博文基于RNN做语义理解和词向量。先不说这么远，CRF的模型架构上是一个典型的无向的链式概率图模型，因此，（回看我们概率图的视角），CRF的关键问题便是如何进行学习了P（X），好在求其该模型直接求其梯度并没有太大的困难，具体可以参见李航的《统计学习》。
5 结束语

这篇文章，从概率图，隐变量两个视角对PRML中各个章节进行了串联，并以RBM，BLR，序列模型（HMM&CRF）具体说明这种串联。

㈣高斯过程说它是非参数模型，这点怎么理解

1、Clarke Modal最理想的模型:

其中N为多径径数，Cn为每一径的幅度增益，wd为最大多普勒频散，an为每一径来波方向，phin为每一径初始相位。其中Cn，an，phin是随机数，在径数N很大的时候，g(t)可被视为高斯随机过程，an,phin看做在(-pi,pi]均匀分布，由此有以下结论：（1）信号幅度服从瑞利分布；（2）相位在(-pi,pi]均匀分布；（3）信道响应的二阶统计特性：如自相关满足贝塞尔曲线J(wd*tau),（tau:相关时间差，之前我写过一篇速度估计的日志，其中的相关算法就是基于自相关的二阶统计特性估计移动速度），信号两个正交分量的互相关为0；（4）以及四阶统计特性。由于告诫统计特性不好表达，直接给出公式了：

2、Jake Modal:这是现在常用的信道模型，与Clarke的不同时，归一化后每一径幅度增益相同且为1/sqrt(N),每径初始相位都为0，第n径来波方向为2*pi*n/N,n=1,2,3,..N。也就是上述中的Cn，an，phin为：

Jake模型大名就不说了，我觉得大家之所以那么爱用它是因为它将Clarke理论模型优化了，它是可以用仿真实现的。毕竟Clarke是个统计模型，每一径来波方向都在(-pi,pi]均匀分布的随机数，但只当多径数量趋于无穷的时候才符合以上统计特性，看到许多文章都用100个正弦分量来合成一个径，这对系统仿真来说代价太大。那么怎么才能用有限个的正弦分量(N)产生符合Clarke统计特性的信道呢？Jake模型为了减少计算量，就人为的把N径均匀的分布在(-pi,pi]范围内，仿真的时候这N个径不是(-pi,pi]的随机数，而是公式an=2*pi*n/N给出的特定值，这样即使N很小也能保证N个径合成的信号与Clarke模型理论一致的，图1给出了N=6时的情况。可以说Jake模型为Clarke理论模型找到了实际仿真可用的信道设计方案。但是有些地方理想的比较过分，比如每一径的增益都一样（实际中可能吗？多径延时特别小的话可以吧），而且初始相位也相同（可能吗？多径延时特别小的话可以吧），这样设计可能对算法仿真结果上有好处，不过做工程的话还是希望仿真模型更接近实际一些吧，所以文章【1】对Jake模型进行改进。

图1 方位角an分布

但Jake模型的有一处设计让我很惊叹它的巧妙，即径数的选择N=4M+2，有了这个条件就可以简化仿真运算，可以减少做硬件用到的震荡器（正弦分量）数量，想想本来要用N个正弦分量，现在只需M=(N-2)/4个了，简化运算量。就拿TD-SCDMA信道来说吧，通常给出5个径的Power Average和多径时延tau_t，注意这里的径区别于上述径。此处为“大径”，大径由多径时延区分开，而其中每一个“大径”由无穷个“小径”合成，这些“小径”才是上面模型所提到的径的概念，“小径”合成的大径服从上述的Clarke模型或Jake模型的统计特性，假设有6个小径N=6，那么M=1，从图1可以看出这6个“小径”方位角分布的对称关系，从而将信道模型化简为：

从上面看出，Jake模型和Clarke有那么多不同，就可以很容易理解为什么Jake模型的统计特性与Clarke理论不符了，下面给出公式：

3、改进信道：尽管Jake信道那么的受欢迎，但是由于其高阶统计特性与理想不符，所以文章【1】的作者对它进行了改进，其实我倒是觉得这个信道怎么又朝着Clarke改回去了，说白了就是让幅度、初始相位、来波方向尽可能随机以符合Clarke理论的统计分布，但同时又能保证如Jake模型中所有径总体来看在（-pi,pi]上均匀分布的，是有可借鉴之处的。挺适合我之前说的速度估计算法使用，毕竟相关算法、CrossingRate算法都是由理论Clarke模型推出来的嘛。既能保证统计特性符合Clarke理论，又借鉴了Jake模型的优点能减少硬件实现和仿真时用到的正弦分量(径数N)的个数。另外文章【1】说Clarke模型无法产生用于频率选择性和MIMO的信道，这个我是百思不得其解，怎样的统计特性才符合呢？为什么文章【1】的统计特性就可以产生符合MIMO的信道呢，想通了留到总结(2)记录好了。下面给出Cn，an，phi公式：

其高阶统计特性如下，与在径数大的时候与Clarke完全一致：

㈤高斯过程回归

对于人口模型可以采用Logistic增长函数形式，它考虑了初期的指数增长以及总资源的限制。其函数形式如下。

首先载入car包以便读取数据，然后使用nls函数进行建模，其中theta1、theta2、theta3表示三个待估计参数，start设置了参数初始值，设定trace为真以显示迭代过程。nls函数默认采用Gauss-Newton方法寻找极值，迭代过程中第一列为RSS值，后面三列是各参数估计值。然后用summary返回回归结果。
library(car)
pop.mod1 <- nls(population ~ theta1/(1+exp(-(theta2+theta3*year))),start=list(theta1 = 400, theta2 = -49, theta3 = 0.025), data=USPop, trace=T)
summary(pop.mod)
在上面的回归过程中我们直接指定参数初始值，另一种方法是采用搜索策略，首先确定参数取值范围，然后利用nls2包的暴力方法来得到最优参数。但这种方法相当费时。

还有一种更为简便的方法就是采用内置自启动模型(self-starting Models)，此时我们只需要指定函数形式，而不需要指定参数初始值。本例的logistic函数所对应的selfstarting函数名为SSlogis
pop.mod2 <- nls(population ~ SSlogis(year,phi1,phi2,phi3),data=USPop)
二、判断拟合效果
非线性回归模型建立后需要判断拟合效果，因为有时候参数最优化过程会捕捉到局部极值点而非全局极值点。最直观的方法是在原始数据点上绘制拟合曲线。
library(ggplot2)
p <- ggplot(USPop,aes(year, population))

㈥高斯过程的应用

高斯过程将多元高斯分布扩展到无限维度。任意数据集中n个观测量，y={y_{1},..,y_{n}}y=y1,..,yn都可以理解成从某个多元高斯分布中抽取的一个样本。高斯过程最重要的应用是解决回归问题。假设训练集数据为y，新数据为y*，那么我们可以根据高斯过程的性质估计新数据的分布。
例子：假设我们有下图的历史数据：
我们要估计新的数据点x*=0.2的分布。根据上述过程，我们首先有6个观测值y，分别是：
从误差线得知sigma_{n}=0.3，那么根据协方差公式，我们有：
根据高斯过程的条件概率公式，我们可以计算出新观测点的均值与方差分别是0.95与0.21。即服从N（0.95，0.21）的高斯分布。

㈦怎么用Java写高斯回归方程

高斯消元法（或译：高斯消去法），是线性代数规划中的一个算法，可用来为线性方程组求解。但其算法十分复杂，不常用于加减消元法，求出矩阵的秩，以及求出可逆方阵的逆矩阵。不过，如果有过百万条等式时，这个算法会十分省时。
一些极大的方程组通常会用迭代法以及花式消元来解决。当用于一个矩阵时，高斯消元法会产生出一个“行梯阵式”。
高斯消元法可以用在电脑中来解决数千条等式及未知数。亦有一些方法特地用来解决一些有特别排列的系数的方程组。

㈧ Gaussian process是什么意思

Gaussian process
词典结果：
Gaussian process
高斯过程;
以上结果来自金山词霸
例句:
1.
Instead, the authors of the new paper employ a technique called gaussian process regression ( gpr), which is not commonly used in the field of global health, but which they believe is more accurate, to plug the gaps and make the forecasts.
相反，该报告的作者们采用了一种叫做高斯过程回归（gpr）的技术，这种技术还没有广泛应用于全球卫生范围，但是他们相信这种技术天枰缺口和预测结果时将更加准确。

㈨高斯过程回归中有哪些常用的核函数

有各向同性的平方指数核函数，各向异性的平方指数核函数，线性核函数，各向同性有理核函数以及各向异性有理核函数等等

㈩ AutoML自动超参调优

现在AutoML非常的火，各大云平台都在推出自己的AutoML服务，包括Google Cloud，Amazon SageMaker，MS Azure等等。AutoML要解决的问题主要是释放机器学习过程中的人力投入，包括：

本文主要关注的是 模型超参优化 的自动化。

AutoML自动调参又可以称作黑箱超参优化（Blackbox hyperparameter optimization）。比较常见的做法是将调参系统和训练系统分离开，模型、数据和训练过程由用户来控制，调参系统给训练系统建议一组或多组参数，训练系统反馈结果，然后调参系统根据反馈结果产生下一组建议的参数。这个过程一直迭代直至满足了终止条件。

调参算法的输入是用户指定的参数及其范围，比如设定学习率范围为[0.0001, 0.01]。比较常见的算法为网格搜索，随机搜索和贝叶斯优化等。

遍历所有可能的参数组合。网格搜索很容易理解和实现，例如我们的超参数A有2种选择，超参数B有3种选择，超参数C有5种选择，那么我们所有的超参数组合就有2 * 3 * 5也就是30种，我们需要遍历这30种组合并且找到其中最优的方案，对于连续值我们还需要等间距采样。实际上这30种组合不一定取得全局最优解，而且计算量很大很容易组合爆炸，并不是一种高效的参数调优方法。

限定搜索次数，随机选择参数进行实验。业界公认的Random search效果会比Grid search好，Random search其实就是随机搜索，例如前面的场景A有2种选择、B有3种、C有5种、连续值随机采样，那么每次分别在A、B、C中随机取值组合成新的超参数组合来训练。虽然有随机因素，但随机搜索可能出现效果特别差、也可能出现效果特别好，在尝试次数和Grid search相同的情况下一般最值会更大

业界的很多参数调优系统都是基于贝叶斯优化的，如Google Vizier [1], SigOpt[2].
该算法要求已经存在几个样本点（一开始可以采用随机搜索来确定几个初始点），并且通过高斯过程回归（假设超参数间符合联合高斯分布）计算前面n个点的后验概率分布，得到每一个超参数在每一个取值点的期望均值和方差，其中均值代表这个点最终的期望效果，均值越大表示模型最终指标越大，方差表示这个点的效果不确定性，方差越大表示这个点不确定是否可能取得最大值非常值得去探索。

在调参的过程中，有的参数在训练的过程中，观察曲线的趋势，会发现它是不太有希望在训练结束达成目标的，这个时候，将这些任务终止掉，释放资源，继续别的参数的尝试。这样可以快速试错，快速调整。[1]

我调研了Github上开源的超参调优系统，按照受关注程度排序如下：

现在的调参系统基本上都是基于贝叶斯优化的思想，将调参任务作为一个黑箱优化的问题。在后面的博客中，我会详细介绍贝叶斯超参调优的思想。

[1] Google Vizier A Service for Black-Box Optimization
[2] SigOpt: https://sigopt.com/

导航:首页 > 五金知识 > 高斯过程回归算法工具箱

高斯过程回归算法工具箱

与高斯过程回归算法工具箱相关的资料