核回归

核回归(又称局部加权线性回归)是统计学中用于估计随机变量条件期望非参数方法。目的是找到一对随机变量XY之间的非线性关系。

在任何非参数回归中 ,变量的条件期望 相对于变量可以写成:

m为一个未知函数。

Nadaraya–Watson核回归

1964年, Nadaraya和Watson都提出了估算作为局部加权平均值,使用内核作为加权函数的方法。 [1] [2] [3] Nadaraya–Watson估计量为:

是一个带宽为 的核。 分母是一个总和为1的加权项。

推导

内核密度估计用于具有内核K的联合分布f(x,y)f(x)

, ,

我们得到

这便是Nadaraya–Watson估计量。

Priestley–Chao核估计函数

此处 为带宽(或平滑参数)。

Gasser–Müller核估计函数

此处

示例

此示例基于加拿大截面工资数据,该数据由1971年加拿大人口普查公用带中的随机样本组成,这些样本适用于受过普通教育的男性(13年级)。共有205个观测值。

右图显示了使用二阶高斯核以及渐近变化范围的估计回归函数

程序实例

以下R语言命令使用npreg()函数提供最佳平滑效果并创建上面给出的图形。 这些命令可以通过剪切和粘贴在命令提示符下输入。

 install.packages("np")
 library(np) # non parametric library
 data(cps71)
 attach(cps71)

 m <- npreg(logwage~age)

 plot(m,plot.errors.method="asymptotic",
   plot.errors.style="band",
   ylim=c(11,15.2))

 points(age,logwage,cex=.25)

相关资料

大卫·萨尔斯堡 (David Salsburg)指出 ,用于内核回归的算法是独立开发的,并且已用于模糊系统 :“通过几乎完全相同的计算机算法,模糊系统和基于内核密度的回归似乎是完全独立于彼此而开发的。 ” [4]

统计实现

相关资料

  • 内核平滑
  • 局部回归

参考文献

  1. ^ Nadaraya, E. A. On Estimating Regression. Theory of Probability and Its Applications. 1964, 9 (1): 141–2. doi:10.1137/1109020. 
  2. ^ Watson, G. S. Smooth regression analysis. Sankhyā: The Indian Journal of Statistics, Series A. 1964, 26 (4): 359–372. JSTOR 25049340. 
  3. ^ Bierens, Herman J. https://books.google.com/books?id=M5QBuJVtbWQC&pg=PA212 |chapterurl=缺少标题 (帮助). The Nadaraya–Watson kernel regression function estimator. New York: Cambridge University Press. 1994: 212–247. ISBN 0-521-41900-X. 
  4. ^ Salsburg, D. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. W.H. Freeman. 2002: 290–91. ISBN 0-8050-7134-2. 
  5. ^ Horová, I.; Koláček, J.; Zelinka, J. Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing. Singapore: World Scientific Publishing. 2012. ISBN 978-981-4405-48-5. 
  6. ^ np: Nonparametric kernel smoothing methods for mixed data types. [2019-10-14]. (原始内容存档于2020-08-17). 
  7. ^ Kloke, John; McKean, Joseph W. Nonparametric Statistical Methods Using R. CRC Press. 2014: 98–106. ISBN 978-1-4398-7343-4. 

延申阅读

外部链接