Kernel polinomiale

Nell'apprendimento automatico, il kernel polinomiale è una funzione kernel, comunemente utilizzata con le macchine a vettori di supporto (SVM) e altri modelli kernelizzati, che rappresenta la similarità fra coppie di vettori (campioni di addestramento) definiti in uno spazio di caratteristiche (feature) costruito sulla base di polinomi delle variabili originali, il che consente l'apprendimento di modelli non lineari.

Intuitivamente, il kernel polinomiale non considera solo le caratteristiche date dei campioni di input per determinarne la similarità, ma anche loro combinazioni. Nel contesto dell'analisi di regressione, tali combinazioni sono note come caratteristiche di interazione. Lo spazio delle feature (implicite) di un kernel polinomiale è equivalente a quello della regressione polinomiale, ma si evita l'esplosione combinatoria del numero di parametri da apprendere. Quando le feature di input hanno valori binari (booleani) quelle implicite corrispondono a loro congiunzioni logiche ^[1].

Definizione

Per i polinomi di grado $d$ , il kernel polinomiale è definito come segue ^[2]:

K(\mathbf {x} ,\mathbf {y} )=(\mathbf {x} ^{\mathsf {T}}\mathbf {y} +c)^{d}

dove $\mathbf {x}$ e $\mathbf {y}$ sono vettori di dimensione $n$ nello spazio di input, ovvero vettori di caratteristiche calcolate da campioni di addestramento o di test e $c\geq 0$ è un parametro libero che compensa l'influenza dei termini di ordine superiore rispetto a quelli di ordine inferiore nel polinomio. Quando $c=0$ , il kernel è detto omogeneo^[3] (un ulteriore kernel polinomiale generalizzato divide $\mathbf {x} ^{\top }\mathbf {y}$ per un parametro scalare specificato dall'utente a ^[4]).

Essendo un kernel, $K$ corrisponde a un prodotto interno in uno spazio di feature basato su una trasformazione $\varphi$ :

K(\mathbf {x} ,\mathbf {y} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {y} )\rangle

La natura di $\varphi$ può essere meglio compresa con l'esempio seguente. Sia $d=2$ , quindi si ha il caso speciale del kernel quadratico. Utilizzando il teorema multinomiale (due volte: l'applicazione più esterna corrisponde al teorema binomiale ) e raggruppando, si ha:

K(\mathbf {x} ,\mathbf {y} )=\left(\sum _{i=1}^{n}x_{i}y_{i}+c\right)^{2}=\sum _{i=1}^{n}\left(x_{i}^{2}\right)\left(y_{i}^{2}\right)+\sum _{i=2}^{n}\sum _{j=1}^{i-1}\left({\sqrt {2}}x_{i}x_{j}\right)\left({\sqrt {2}}y_{i}y_{j}\right)+\sum _{i=1}^{n}\left({\sqrt {2c}}x_{i}\right)\left({\sqrt {2c}}y_{i}\right)+c^{2}

da ciò consegue che la trasformazione $\varphi$ sia data da:

\varphi (x)=\left(x_{n}^{2},\ldots ,x_{1}^{2},{\sqrt {2}}x_{n}x_{n-1},\ldots ,{\sqrt {2}}x_{n}x_{1},{\sqrt {2}}x_{n-1}x_{n-2},\ldots ,{\sqrt {2}}x_{n-1}x_{1},\ldots ,{\sqrt {2}}x_{2}x_{1},{\sqrt {2c}}x_{n},\ldots ,{\sqrt {2c}}x_{1},c\right)

generalizzando per $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ ,

dove $\mathbf {x} \in \mathbb {R} ^{n}$ , $\mathbf {y} \in \mathbb {R} ^{n}$ , e applicando il teorema multinomiale:

${\begin{alignedat}{2}\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}&=\sum _{j_{1}+j_{2}+\dots +j_{n+1}=d}{\frac {\sqrt {d!}}{\sqrt {j_{1}!\cdots j_{n}!j_{n+1}!}}}x_{1}^{j_{1}}\cdots x_{n}^{j_{n}}{\sqrt {c}}^{j_{n+1}}{\frac {\sqrt {d!}}{\sqrt {j_{1}!\cdots j_{n}!j_{n+1}!}}}y_{1}^{j_{1}}\cdots y_{n}^{j_{n}}{\sqrt {c}}^{j_{n+1}}\\&=\varphi (\mathbf {x} )^{T}\varphi (\mathbf {y} )\end{alignedat}}$

L'ultima sommatoria ha $l_{d}={\tbinom {n+d}{d}}$ elementi, in modo che:

\varphi (\mathbf {x} )=\left(a_{1},\dots ,a_{l},\dots ,a_{l_{d}}\right)

dove $l=(j_{1},j_{2},...,j_{n},j_{n+1})$ e

a_{l}={\frac {\sqrt {d!}}{\sqrt {j_{1}!\cdots j_{n}!j_{n+1}!}}}x_{1}^{j_{1}}\cdots x_{n}^{j_{n}}{\sqrt {c}}^{j_{n+1}}\quad |\quad j_{1}+j_{2}+\dots +j_{n}+j_{n+1}=d

Uso pratico

Sebbene in generale il kernel RBF sia più popolare rispetto al kernel polinomiale nella classificazione con SVM, quest'ultimo è piuttosto popolare nel contesto dell'elaborazione del linguaggio naturale (NLP) ^[1]^[5]. Il grado più comune è $d=2$ (quadratico) poiché, nei problemi NLP, gradi più grandi tendono al sovradattamento.

Per il calcolo (esatto o approssimato) dei kernel polinomiali sono stati ideati vari metodi alternativi rispetto agli usuali algoritmi di addestramento SVM non lineari, fra i quali:

l'espansione completa del kernel prima dell'addestramento/test con una SVM lineare^[5], ovvero il calcolo completo di $\varphi$ come nella regressione polinomiale;
il basket mining (che utilizza una variante dell'algoritmo Apriori) per congiunzioni delle caratteristiche più comuni in un set di addestramento al fine di produrre un'espansione approssimata^[6];
l'uso dell'indicizzazione invertita dei vettori di supporto ^[6]^[1].

Un problema del kernel polinomiale è che esso può comportare instabilità numerica:

quando $\mathbf {x} ^{T}\mathbf {y} +c<1$ , $K(\mathbf {x} ,\mathbf {y} )=(\mathbf {x} ^{T}\mathbf {y} +c)^{d}$ tende a zero all'aumentare di $d$ ,

mentre quando $\mathbf {x} ^{T}\mathbf {y} +c>1$ , $K(\mathbf {x} ,\mathbf {y} )$ tende all'infinito^[7].

Note

^ ^a ^b ^c Yoav Goldberg e Michael Elhadad, splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications, in Johanna D. Moore, Simone Teufel, James Allan, Sadaoki Furui (a cura di), Proceedings of ACL-08: HLT, Short Papers, Association for Computational Linguistics, 2008-06, pp. 237–240. URL consultato il 25 luglio 2025.
^ cs.tufts.edu, https://www.cs.tufts.edu/~roni/Teaching/CLT/LN/lecture18.pdf Titolo mancante per url url (aiuto).
^ Amnon Shashua, Introduction to Machine Learning: Class Notes 67577, 23 aprile 2009, DOI:10.48550/arXiv.0904.3664. URL consultato il 25 luglio 2025.
^ Yin-Wen Chang, Cho-Jui Hsieh e Kai-Wei Chang, Training and Testing Low-degree Polynomial Data Mappings via Linear SVM, in Journal of Machine Learning Research, vol. 11, n. 48, 2010, pp. 1471–1490. URL consultato il 25 luglio 2025.
^ ^a ^b Yin-Wen Chang, Cho-Jui Hsieh e Kai-Wei Chang, Training and Testing Low-degree Polynomial Data Mappings via Linear SVM, in Journal of Machine Learning Research, vol. 11, n. 48, 2010, pp. 1471–1490. URL consultato il 25 luglio 2025.
^ ^a ^b Taku Kudo e Yuji Matsumoto, Fast methods for kernel-based text analysis, in Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1, Association for Computational Linguistics, 7 luglio 2003, pp. 24–31, DOI:10.3115/1075096.1075100. URL consultato il 25 luglio 2025.
^ 2012, http://www.csie.ntu.edu.tw/~cjlin/talks/mlss_kyoto.pdf.

[:0-1] Yoav Goldberg e Michael Elhadad, splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications, in Johanna D. Moore, Simone Teufel, James Allan, Sadaoki Furui (a cura di), Proceedings of ACL-08: HLT, Short Papers, Association for Computational Linguistics, 2008-06, pp. 237–240. URL consultato il 25 luglio 2025.

[2] s.tufts.edu, https://www.cs.tufts.edu/~roni/Teaching/CLT/LN/lecture18.pdf Titolo mancante per url url (aiuto).

[3] Amnon Shashua, Introduction to Machine Learning: Class Notes 67577, 23 aprile 2009, DOI:10.48550/arXiv.0904.3664. URL consultato il 25 luglio 2025.

[4] Yin-Wen Chang, Cho-Jui Hsieh e Kai-Wei Chang, Training and Testing Low-degree Polynomial Data Mappings via Linear SVM, in Journal of Machine Learning Research, vol. 11, n. 48, 2010, pp. 1471–1490. URL consultato il 25 luglio 2025.

[Chang2010-5] Yin-Wen Chang, Cho-Jui Hsieh e Kai-Wei Chang, Training and Testing Low-degree Polynomial Data Mappings via Linear SVM, in Journal of Machine Learning Research, vol. 11, n. 48, 2010, pp. 1471–1490. URL consultato il 25 luglio 2025.

[Kudo2003-6] Taku Kudo e Yuji Matsumoto, Fast methods for kernel-based text analysis, in Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1, Association for Computational Linguistics, 7 luglio 2003, pp. 24–31, DOI:10.3115/1075096.1075100. URL consultato il 25 luglio 2025.

[lin2012-7] 2012, http://www.csie.ntu.edu.tw/~cjlin/talks/mlss_kyoto.pdf.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Kernel polinomiale

Definizione

Uso pratico

Note

Portal di Ensiklopedia Dunia