核回归(又称局部加权线性回归)是统计学中用于估计随机变量的条件期望的非参数方法。目的是找到一对随机变量X和Y之间的非线性关系。
在任何非参数回归中 ,变量的条件期望 相对于变量可以写成:
m为一个未知函数。
Nadaraya–Watson核回归
1964年, Nadaraya和Watson都提出了估算作为局部加权平均值,使用内核作为加权函数的方法。 [1] [2] [3] Nadaraya–Watson估计量为:
是一个带宽为 的核。 分母是一个总和为1的加权项。
推导
将内核密度估计用于具有内核K的联合分布f(x,y)和f(x) ,
,
,
我们得到
这便是Nadaraya–Watson估计量。
Priestley–Chao核估计函数
此处 为带宽(或平滑参数)。
Gasser–Müller核估计函数
此处
示例
此示例基于加拿大截面工资数据,该数据由1971年加拿大人口普查公用带中的随机样本组成,这些样本适用于受过普通教育的男性(13年级)。共有205个观测值。
右图显示了使用二阶高斯核以及渐近变化范围的估计回归函数
程序实例
以下R语言命令使用npreg()
函数提供最佳平滑效果并创建上面给出的图形。 这些命令可以通过剪切和粘贴在命令提示符下输入。
install.packages("np")
library(np) # non parametric library
data(cps71)
attach(cps71)
m <- npreg(logwage~age)
plot(m,plot.errors.method="asymptotic",
plot.errors.style="band",
ylim=c(11,15.2))
points(age,logwage,cex=.25)
相关资料
大卫·萨尔斯堡 (David Salsburg)指出 ,用于内核回归的算法是独立开发的,并且已用于模糊系统 :“通过几乎完全相同的计算机算法,模糊系统和基于内核密度的回归似乎是完全独立于彼此而开发的。 ” [4]
统计实现
相关资料
参考文献
- ^ Nadaraya, E. A. On Estimating Regression. Theory of Probability and Its Applications. 1964, 9 (1): 141–2. doi:10.1137/1109020.
- ^ Watson, G. S. Smooth regression analysis. Sankhyā: The Indian Journal of Statistics, Series A. 1964, 26 (4): 359–372. JSTOR 25049340.
- ^ Bierens, Herman J. https://books.google.com/books?id=M5QBuJVtbWQC&pg=PA212. The Nadaraya–Watson kernel regression function estimator. New York: Cambridge University Press. 1994: 212–247. ISBN 0-521-41900-X.
- ^ Salsburg, D. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. W.H. Freeman. 2002: 290–91. ISBN 0-8050-7134-2.
- ^ Horová, I.; Koláček, J.; Zelinka, J. Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing. Singapore: World Scientific Publishing. 2012. ISBN 978-981-4405-48-5.
- ^ np: Nonparametric kernel smoothing methods for mixed data types. [2019-10-14]. (原始内容存档于2020-08-17).
- ^ Kloke, John; McKean, Joseph W. Nonparametric Statistical Methods Using R. CRC Press. 2014: 98–106. ISBN 978-1-4398-7343-4.
延申阅读
外部链接