Коефіцієнт кореляції Пірсона

Приклади діаграм розсіювання з різними значеннями коефіцієнта кореляції (ρ)
Декілька наборів точок (xy), з коефіцієнтом кореляції між x та y для кожного набору. Кореляція відображує силу та напрямок лінійного зв'язку (верхній ряд), але не нахил цього зв'язку (середній), ані багато аспектів нелінійних зв'язків (нижній). Примітка: фігура в центрі має нахил 0, але в цьому випадку коефіцієнт кореляції невизначений, оскільки дисперсія Y нульова.

У статистиці, коефіціє́нт кореля́ції Пі́рсона (ККП, англ. Pearson correlation coefficient, PCC)[a] — це коефіцієнт кореляції, який вимірює лінійну[en] кореляцію між двома наборами даних. Це відношення коваріації двох змінних до добутку їхніх стандартних відхилень; таким чином, це, по суті, унормована міра коваріації, така, що її результат завжди має значення між −1 та 1. Як і сама коваріація, ця міра може відображати лише лінійну кореляцію змінних, і не враховує багатьох інших типів взаємозв'язків і кореляцій. Як простий приклад, можна було би очікувати, що вік і зріст групи підлітків із середньої школи матимуть коефіцієнт кореляції Пірсона значно більший за 0, але менший за 1 (оскільки 1 означало би нереалістично ідеальну кореляцію).

Назва й історія

Розробив його Карл Пірсон на основі спорідненої ідеї, запропонованої Френсісом Гальтоном у 1880-х роках, математичну формулу для якої вивів та опублікував Огюст Браве 1844 року.[b][6][7][8][9] Назва цього коефіцієнта є одним із прикладів закону Стіглера.

Визначення

Коефіцієнт кореляції Пірсона це коваріація двох змінних, поділена на добуток їхніх стандартних відхилень. Вигляд цього визначення містить «момент добутку», тобто середнє значення (перший момент відносно початку координат) добутку змінних, скоригованих на їхні середні значення; тому в назві й використовують означення «моменту добутку».

Для сукупності

Коефіцієнт кореляції Пірсона, коли його застосовують до сукупності, зазвичай позначують грецькою літерою ρ (ро), й можуть називати коефіцієнтом кореляції сукупності (англ. population correlation coefficient) або коефіцієнтом кореляції Пірсона для сукупності (англ. population Pearson correlation coefficient). Для пари випадкових змінних (наприклад, Зріст та Вага), формулою для ρ[10] є[11]

де

Формулу для можливо виразити через середнє значення та математичне сподівання. Оскільки[10]

формулу для також можливо записати як

де

  • та визначено як вище
  •  — середнє значення
  •  — середнє значення
  •  — математичне сподівання.

Формулу для можливо виразити через нецентровані моменти. Оскільки

формулу для також можливо записати як

Для вибірки

Коефіцієнт кореляції Пірсона, коли його застосовують до вибірки, зазвичай позначують через і можуть називати коефіцієнтом кореляції вибірки (англ. sample correlation coefficient) або коефіцієнтом кореляції Пірсона для вибірки (англ. sample Pearson correlation coefficient). Формулу для можливо отримати, підставивши оцінки коваріацій та дисперсій на основі вибірки до наведеної вище формули. Для парних даних , що складаються з пар, визначають як

де

  •  — розмір вибірки
  •  — окремі точки вибірки з індексом i
  • (середнє значення вибірки); й аналогічно для .

Перегрупування дає таку формулу для :

де визначено як вище.

Ця формула пропонує зручний однопрохідний алгоритм обчислення кореляцій вибірок, хоча, залежно від задіяних чисел, вона іноді може бути чисельно нестійкою.

Подальше перегрупування дає таку[10] формулу для :

де визначено як вище.

Еквівалентний вираз дає формулу для як середнє добутків стандартних оцінок наступним чином:

де

  • визначено як вище, а визначено нижче
  •  — стандартна оцінка (й аналогічно для стандартної оцінки ).

Доступні й альтернативні формули для . Наприклад, можливо використовувати наступну формулу для :

де

  • визначено як вище, а
  • (ви́біркове стандартне відхилення); й аналогічно для .

Для спільно гауссових розподілів

Якщо спільно гауссові, з нульовим середнім значенням і дисперсією , то .

Практичні проблеми

В умовах сильного шуму виділяння коефіцієнта кореляції між двома наборами стохастичних змінних нетривіальне, особливо коли канонічно-кореляційний аналіз показує зниження значень кореляції через значний внесок шуму. Узагальнення цього підходу наведено в іншому місці.[12]

У випадку відсутності даних, Ґаррен вивів оцінювання максимальною правдоподібністю.[13]

Деякі розподіли (наприклад, стійкі розподіли, відмінні від нормального) не мають визначеної дисперсії.

Математичні властивості

Значення коефіцієнта кореляції Пірсона як для вибірки, так і для сукупності перебувають на або між −1 та 1. Кореляції, які дорівнюють +1 чи −1, відповідають точкам даних, що лежать точно на прямій (у випадку коефіцієнта кореляції вибірки), або двовимірному розподілу, носій[en] якого лежить на прямій (у випадку коефіцієнта кореляції сукупності). Коефіцієнт кореляції Пірсона симетричний: corr(X,Y) = corr(Y,X).

Ключовою математичною властивістю коефіцієнта кореляції Пірсона є його інваріантність[en] щодо окремих змін розташування та масштабу в обох змінних. Тобто ми можемо перетворити X на a + bX, і перетворити Y на c + dY, де a, b, c, та d сталі, а b, d > 0, не змінивши коефіцієнта кореляції. (Це справджується як для коефіцієнта кореляції сукупності, так і для коефіцієнта кореляції вибірки.) Загальніші лінійні перетворення кореляцію змінюють: щодо того, як це застосовувати, див. § Декореляція n випадкових змінних.

Тлумачення

Коефіцієнт кореляції набуває значень з −1 по 1. Абсолютне рівне значення 1 означає, що лінійне рівняння описує взаємозв'язок між X та Y ідеально, з усіма точками даних на одній прямій. Знак кореляції визначається нахилом регресії: значення +1 означає, що всі точки даних лежать на прямій, за якої Y зростає зі зростанням X, і навпаки для −1.[14] Значення 0 означає, що між змінними немає лінійної залежності.[15]

Загальніше, (XiX)(YiY) додатний тоді й лише тоді, коли Xi та Yi перебувають з одного боку від своїх середніх значень. Відтак, коефіцієнт кореляції додатний, коли Xi та Yi схильні бути одночасно більшими або одночасно меншими за свої середні значення. Коефіцієнт кореляції від'ємний (антикореляція), коли Xi та Yi схильні перебувати по різні боки від своїх середніх значень. Більше того, що сильніша будь-яка з цих тенденцій, то більше абсолютне значення коефіцієнта кореляції.

Роджерс та Найсвандер[16] перелічили тринадцять способів тлумачення кореляції або простих функцій від неї:

  • Функція від сирих оцінок та середніх значень
  • Стандартизована коваріація
  • Стандартизований нахил лінії регресії
  • Геометричне середнє двох нахилів регресії
  • Квадратний корінь відношення двох дисперсій
  • Середній векторний добуток стандартизованих змінних
  • Функція кута між двома стандартизованими регресійними лініями
  • Функція кута між двома векторами змінних
  • Перемасштабована дисперсія різниці стандартизованих оцінок
  • Оцінка за правилом повітряної кульки
  • Пов'язана з двовимірними еліпсами ізоконцентрації
  • Функція статистичного критерію із запланованих експериментів
  • Відношення двох середніх

Геометричне тлумачення

Лінії регресії для y = gX(x) [червона] та x = gY(y) [синя]

Для нецентрованих даних існує зв'язок між коефіцієнтом кореляції та кутом φ між двома регресійними лініями, y = gX(x) та x = gY(y), отриманими в результаті регресії y на x та x на y відповідно. (Тут φ відкладають проти годинникової стрілки в першому квадранті, утвореному навколо точки перетину ліній, якщо r > 0, чи проти годинникової стрілки з четвертого до другого квадранту, якщо r < 0.) Можливо показати,[17] що якщо стандартні відхилення рівні, то r = sec φ − tg φ, де sec та tg — тригонометричні функції.

Для центрованих даних (тобто даних, зміщених на середні значення їхніх відповідних змінних, таким чином, щоби середнє значення кожної змінної було нульовим) коефіцієнт кореляції також можливо розглядати як косинус кута θ між двома спостережуваними векторами в N-вимірному просторі (для N спостережень кожної змінної).[18]

Коефіцієнти як нецентрованої (не пірсоново сумісної), так і центрованої кореляції можливо визначати для набору даних. Наприклад, припустімо, що виявлено, що п'ять країн мають валовий національний продукт 1, 2, 3, 5 та 8 мільярдів доларів відповідно. Припустімо, що ці ж п'ять країн (у тому ж порядку) мають 11 %, 12 %, 13 %, 15 % та 18 % бідності. Тоді нехай x та y будуть впорядкованими 5-елементними векторами, що містять наведені вище дані: x = (1, 2, 3, 5, 8) та y = (0.11, 0.12, 0.13, 0.15, 0.18).

За звичайною процедурою визначення кута θ між двома векторами (див. скалярний добуток) коефіцієнт нецентрованої кореляції становить

Цей коефіцієнт нецентрованої кореляції ідентичний косинусній подібності. Наведені вище дані було свідомо обрано так, щоби вони бути ідеально корельованими: y = 0.10 + 0.01 x. Тому коефіцієнт кореляції Пірсона мусить дорівнювати рівно одиниці. Центрування даних (зміщення x на ℰ(x) = 3.8 та y на ℰ(y) = 0.138) дає x = (−2.8, −1.8, −0.8, 1.2, 4.2) та y = (−0.028, −0.018, −0.008, 0.012, 0.042), звідки

як і очікувалося.

Тлумачення розміру кореляції

Цей рисунок дає уявлення про те, як корисність кореляції Пірсона для передбачування значень змінюється залежно від її величини. Для спільно нормальних X, Y з кореляцією ρ, (зображений тут як функція ρ) це коефіцієнт, на який може бути зменшено заданий інтервал передбачення[en] для Y з урахуванням відповідного значення X. Наприклад, якщо ρ = 0.5, то 95 %-вий інтервал передбачення Y|X буде приблизно на 13 % меншим за 95 %-вий інтервал передбачення Y.

Декілька авторів запропонували настанови для тлумачення коефіцієнта кореляції.[19][20] Проте всі такі критерії дещо довільні.[20] Тлумачення коефіцієнта кореляції залежить від контексту та цілей. Кореляція 0,8 може бути дуже низькою, якщо йдеться про перевірку фізичного закону з використанням високоякісних інструментів, але може вважатися дуже високою в соціальних науках, де внесок від ускладнювальних чинників може бути більшим.

Висновування

Статистичне висновування на основі коефіцієнті кореляції Пірсона часто зосереджується на одній з наступних двох цілей:

  • Одна мета полягає в перевірці нульової гіпотези, що істинний коефіцієнт кореляції ρ дорівнює 0, на основі значення коефіцієнта кореляції вибірки r.
  • Інша мета полягає в тому, щоби вивести довірчий інтервал, який при повторюваному вибиранні має задану ймовірність містити ρ.

Методи досягнення однієї або обох цих цілей обговорюються нижче.

Використання перестановкового критерію

Перстановкові критерії забезпечують прямий підхід до здійснення перевірок гіпотез і побудови довірчих інтервалів. Перестановковий критерій для коефіцієнта кореляції Пірсона містить наступні два кроки:

  1. Використовуючи первинні паровані дані (xiyi), випадково визначити пари заново, створивши новий набір даних (xiyi′), де i′ — перестановка множини {1,…,n}. Перестановку i′ вибирають випадково, з рівними ймовірностями для всіх n! можливих перестановок. Це рівнозначне вибиранню i′ випадково без повторів з множини {1, …, n}. У натяжці, тісно пов'язаному підході, i та i′ є рівними й вибираються з {1, …, n} з повторами;
  2. Побудувати коефіцієнт кореляції r з цих увипадковлених даних.

Щоби виконати перевірку перестановкового критерію, повторіть кроки (1) та (2) велику кількість разів. p-значення для перестановкового критерію — це частка значень r, породжених на кроці (2), більших за коефіцієнт кореляції Пірсона, обчислений із первинних даних. Тут «більший» може означати як більший за абсолютним значенням, так і більший за значенням зі знаком, залежно від того, чи потрібен двобічний[en], чи однобічний[en] критерій.

Використання натяжки

Для побудови довірчих інтервалів для коефіцієнта кореляції Пірсона можливо використовувати натяжку. В «непараметричній» натяжці n пар (xiyi) перевибирають зі спостережуваного набору з n пар «з повторами», й коефіцієнт кореляції r обчислюють на основі цих перевибраних даних. Цей процес повторюють велику кількість разів, і цей емпіричний розподіл перевибраних значень r використовують для наближення вибіркового розподілу цієї статистики. 95 %-вий довірчий інтервал для ρ можливо визначити як інтервал, що простягається від 2,5-го до 97,5-го перцентиля перевибраних значень r.

Стандартна похибка

Якщо та  — випадкові змінні, то стандартною похибкою, пов'язаною з кореляцією у випадку нульової гіпотези, є

де  — кореляція (за припущення r≈0), а  — розмір вибірки.[21][22]

Перевірка з використанням розподілу Ст'юдента

Критичні значення коефіцієнта кореляції Пірсона, які має бути перевищено, щоби вважати його значно ненульовим на рівні 0,05.

Для пар з некорельованого двовимірного нормального розподілу, вибірковий розподіл ст'юдентованого коефіцієнта кореляції Пірсона дотримується t-розподілу Ст'юдента зі ступенями вільності n − 2. Зокрема, якщо змінні в основі мають двовимірний нормальний розподіл, то змінна

у випадку нульової гіпотези (нульової кореляції) має розподіл Ст'юдента.[23] Це приблизно виконується у випадку не нормальних спостережуваних значень, якщо розміри вибірок достатньо великі.[24] Для визначення критичних значень для r потрібна обернена функція:

Також можливо використовувати асимптотичні підходи для великих вибірок.

Інша рання стаття[25] пропонує графіки та таблиці для загальних значень ρ, для малих розмірів вибірки, та обговорює підходи до обчислень.

У випадку, якщо змінні в основі не нормальні, вибірковий розподіл коефіцієнта кореляції Пірсона дотримується розподілу Ст'юдента, але ступені вільності знижуються.[26]

Використання точного розподілу

Для даних, що слідують двовимірному нормальному розподілу, точною функцією густини f(r) для вибіркового коефіцієнта кореляції r нормального двовимірного розподілу є[27][28][29]

де  — це гамма-функція, а  — гауссова гіпергеометрична функція.

В окремому випадку, коли (нульова кореляція в сукупності), точну функцію густини f(r) можливо записати як

де  — це бета-функція, що є одним зі способів запису густини t-розподілу Ст'юдента для ст'юдентованого вибіркового коефіцієнта кореляції, як зазначено вище.

Використання точного довірчого розподілу

Довірчі інтервали та критерії можливо розраховувати з довірчого розподілу[en]. Точна довірча густина для ρ становить[30]

де  — це гауссова гіпергеометрична функція, а .

Використання перетворення Фішера

На практиці обчислення довірчих інтервалів та перевірки гіпотез щодо ρ зазвичай виконують за допомогою перетворення Фішера[en], :

F(r) приблизно дотримується нормальному розподілу, де

    а стандартна похибка

де n — розмір вибірки. Похибка наближення найнижча для великого розміру вибірки і малих значень та , і збільшується в іншому випадку.

За використання цього наближення z-оцінка становить

за нульовою гіпотезою, що , за припущення, що пари вибірки незалежні й однаково розподілені та дотримуються двовимірного нормального розподілу. Відтак, можливо отримати наближене p-значення з таблиці нормальної ймовірності. Наприклад, якщо спостерігається z = 2.2 й потрібне двобічне p-значення для перевірки нульової гіпотези, що , то p-значення становитиме 2 Φ(−2.2) = 0.028, де Φ — це стандартна нормальна функція розподілу.

Щоб отримати довірчий інтервал для ρ, спочатку обчислімо довірчий інтервал для F():

Обернене перетворення Фішера повертає інтервал до шкали кореляції.

Наприклад, припустімо, що ми спостерігаємо r = 0.7 з розміром вибірки n=50, і хочемо отримати 95 %-вий довірчий інтервал для ρ. Перетворене значення становить , тому довірчий інтервал у перетвореній шкалі становить , або (0.5814, 1.1532). Перетворення назад до шкали кореляції дає (0.5237, 0.8188).

В регресійному аналізі методом найменших квадратів

Квадрат коефіцієнта кореляції вибірки зазвичай позначують через r2, він є окремим випадком коефіцієнта детермінації. У цьому випадку він оцінює частку дисперсії Y, яку пояснює X через просту лінійну регресію. Отже, якщо є спостережуваний набір даних та допасований набір даних , то як відправну точку повну дисперсію Yi навколо їхнього середнього значення можливо розкласти як

де  — це допасовані значення з регресійного аналізу. Це можливо переформулювати як

Обидва доданки вище — це частка дисперсії в Y, яку пояснює X (правий), та яку X не пояснює (лівий).

Далі, ми застосовуємо властивість регресійних моделей найменших квадратів, що вибіркова коваріація між та нульова. Тож вибірковий коефіцієнт кореляції між спостережуваними та допасованими значеннями відгуку в регресії можливо записати (обчислення виконується виходячи з очікування гауссової статистики) як

Тож

де  — частка дисперсії Y, пояснювана лінійною функцією X.

У наведеному вище виведенні той факт, що

можливо довести, відмітивши, що частинні похідні залишкової суми квадратів[en] (RSS) за β0 та β1 у моделі найменших квадратів дорівнюють 0, де

.

Кінець кінцем, рівняння можливо записати як

де

  • .

Символ називають сумою квадратів регресії, також відомою як пояснена сума квадратів, а  — повна сума квадратів[en] (пропорційна дисперсії даних).

Чутливість до розподілу даних

Існування

Коефіцієнт кореляції Пірсона для сукупності визначено через моменти, й тому він існує для будь-якого двовимірного розподілу ймовірності, для якого визначені коваріація сукупності та відособлені дисперсії сукупності, й вони ненульові. Деякі розподіли ймовірності, такі як розподіл Коші, мають невизначену дисперсію, й відтак якщо X або Y відповідають такому розподілові, то ρ невизначений. У деяких практичних застосуваннях, дані в яких підозрюють на відповідність розподілові з повільно спадним хвостом[en], це важливий аспект. Проте, існування коефіцієнта кореляції зазвичай не проблема; наприклад, якщо діапазон розподілу обмежений, ρ завжди визначений.

Розмір вибірки

  • Якщо розмір вибірки помірний або великий і сукупність нормальна, то у випадку двовимірного нормального розподілу вибірковий коефіцієнт кореляції є максимально-правдоподібнісною оцінкою коефіцієнта кореляції сукупності, асимптотично[en] незміщеною[en] та ефективною[en], що приблизно означає неможливість побудувати оцінку, точнішу за вибірковий коефіцієнт кореляції.
  • Якщо розмір вибірки великий і сукупність не нормальна, то вибірковий коефіцієнт кореляції залишається приблизно незміщеним, але може не бути ефективним.
  • Якщо розмір вибірки великий, то вибірковий коефіцієнт кореляції є слушною оцінкою коефіцієнта кореляції сукупності, за умови, що середні значення вибірки, дисперсії та коваріація слушні (що гарантовано, коли можливо застосувати закон великих чисел).
  • Якщо розмір вибірки малий, то вибірковий коефіцієнт кореляції r не є незміщеною оцінкою ρ.[10] Замість цього слід використовувати скоригований коефіцієнт кореляції: визначення див. далі у цій статті.
  • Кореляції можуть бути різними для незбалансованих дихотомних даних, коли у вибірці є помилка дисперсії.[31]

Робастність

Як і багато інших часто використовуваних статистик, вибіркова статистика r не робастна,[32] тож за наявності викидів її значення може бути оманливим.[33][34] Зокрема, коефіцієнт кореляції моменту добутку не робастний ані щодо розподілу,[35] ані щодо викидів[32] (див. Робастність у статистиці § Поняття робастності). Перевірка діаграми розсіяння між X та Y зазвичай виявляє ситуацію, коли робастність може бути проблемою, і в таких випадках може бути рекомендовано використовувати робастну міру пов'язаності. Проте слід зазначити, що хоч більшість робастних оцінювачів пов'язаності і вимірюють якимось чином статистичну залежність, вони зазвичай не інтерпретовні тою ж мірою, що й коефіцієнт кореляції Пірсона.

Статистичне висновування для коефіцієнта кореляції Пірсона чутливе до розподілу даних. Точні критерії та асимптотичні критерії на основі перетворення Фішера[en] можливо застосовувати, якщо дані розподілені приблизно нормально, але в іншому разі вони можуть бути оманливими. У деяких ситуаціях можливо використовувати натяжку для створення довірчих інтервалів, а перестановкові критерії — для здійснення перевірки гіпотез. Ці непараметричні[en] підходи можуть давати змістовніші результати в деяких ситуаціях, коли двовимірна нормальність не виконується. Проте стандартні версії цих підходів покладаються на взаємозамінність[en] даних, що означає, що не існує впорядкування чи групування аналізованих пар даних, які могли би вплинути на поведінку оцінки кореляції.

Стратифікований аналіз — це один зі способів або пристосування до відсутності двовимірної нормальності, або для відокремлення кореляції, що випливає з одного чинника при контролі над іншим. Якщо W подає приналежність до кластеру або інший чинник, який хочеться контролювати, можливо стратифікувати дані на основі значення W, а потім обчислити коефіцієнт кореляції в межах кожної страти. Оцінки на рівні страт потім можливо об'єднати для оцінки загальної кореляції при контролі над W.[36]

Варіанти

Існують різні варіації коефіцієнта кореляції, які можливо обчислювати для різних цілей. Ось декілька прикладів.

Скоригований коефіцієнт кореляції

Вибірковий коефіцієнт кореляції r не є незміщеною оцінкою ρ. Для даних, що дотримуються двовимірному нормальному розподілу, математичне сподівання E[r] вибіркового коефіцієнта кореляції r нормальної двовимірності становить[37]

тож r є зміщеним оцінювачем

Унікальний мінімально-дисперсійний незміщений оцінювач (англ. unique minimum variance unbiased estimator) radj задається як[38]

 

 

 

 

(1)

де:

Приблизно незміщений оцінювач (англ. approximately unbiased estimator) radj можливо отримати[джерело?] шляхом утинання E[r] та розв'язання цього утятого рівняння:

 

 

 

 

(2)

Приблизним розв'язком[джерело?] рівняння (2) є

 

 

 

 

(3)

де у (3)

  • визначено як вище,
  • radj — субоптимальний оцінювач,[джерело?][прояснити: ком.]
  • radj також можливо отримати максимізуванням log(f(r)),
  • radj має мінімальну дисперсію за великих значень n,
  • radj має зміщення порядку 1(n − 1).

Іншим запропонованим[10] скоригованим коефіцієнтом кореляції (англ. adjusted correlation coefficient) є[джерело?]

radjr за великих значень n.

Коефіцієнт зваженої кореляції

Покладімо, що спостереження, які потрібно скорелювати, мають різні ступені важливості, які можливо виразити ваговим вектором w. Щоб обчислити кореляцію між векторами x та y з ваговим вектором w (всі довжиною n),[39][40]

  • Зважене середнє:
  • Зважена коваріація:
  • Зважена кореляція (англ. weighted correlation):

Віддзеркалювальний коефіцієнт кореляції

Віддзеркалювальна кореляція (англ. reflective correlation) — це варіант пірсонової кореляції, в якому дані не центровано навколо їхніх середніх значень.[джерело?] Віддзеркалювальна кореляція сукупності це

Віддзеркалювальна кореляція симетрична, але не інваріантна щодо паралельного перенесення:

Віддзеркалювальна кореляція вибірки еквівалентна косинусній подібності:

Зважена версія вибіркової віддзеркалювальної кореляції це

Масштабний коефіцієнт кореляції

Масштабна кореляція (англ. scaled correlation) — це варіант кореляції Пірсона, в якому діапазон даних обмежують навмисно й контрольовано, щоби виявляти кореляції між швидкими складовими в часових рядах.[41] Масштабну кореляцію визначають як середню кореляцію над короткими сегментами даних.

Нехай це кількість сегментів, які можуть вміститися в загальну довжину сигналу для заданого масштабу :

Тоді масштабну кореляцію над усім сигналом обчислюють як

де  — коефіцієнт кореляції Пірсона для сегмента .

Шляхом обирання параметра зменшують діапазон значень, і кореляції на довгих часових масштабах відфільтровуються, так, що виявляються лише кореляції на коротких часових масштабах. Таким чином усувають внески повільних складових і зберігають внески швидких складових.

Відстань Пірсона

Метрику відстані для двох змінних X та Y, відому як відстань Пірсона (англ. Pearson's distance), можливо визначати з коефіцієнта їхньої кореляції як[42]

Враховуючи те, що коефіцієнт кореляції Пірсона перебуває в межах [−1, +1], відстань Пірсона лежить на проміжку [0, 2]. Відстань Пірсона використовували в кластерному аналізі та виявлянні даних для передавання та зберігання з невідомими передавальним коефіцієнтом та зміщенням.[43]

Визначена таким чином «відстань» Пірсона для від'ємних кореляцій встановлює відстань понад 1. Насправді, значення мають як сильна додатна, так і сильна від'ємна кореляції, тому потрібно бути обережними при використанні «відстані» Пірсона в алгоритмах найближчих сусідів, оскільки такі алгоритми включатимуть лише сусідів із додатною кореляцією й виключати сусідів із від'ємною. Як альтернативу, можливо застосовувати відстань з абсолютним значенням, , яка враховуватиме як додатні, так і від'ємні кореляції. Інформацію про додатну та від'ємну пов'язаність можливо виділяти окремо пізніше.

Коловий коефіцієнт кореляції

Для змінних X = {x1,…,xn} та Y = {y1,…,yn}, визначених на одиничному колі , можливо визначити коловий (англ. circular) аналог коефіцієнта Пірсона.[44] Це робиться шляхом такого перетворення даних в X та Y за допомогою функції синуса, що коефіцієнт кореляції визначається як

де та  — колові середні[en] X та Y. Ця міра може бути корисною в таких галузях як метеорологія, де важливий кутовий напрямок даних.

Частинна кореляція

Якщо сукупність або набір даних характеризується понад двома змінними, коефіцієнт частинної кореляції вимірює силу залежності між парою змінних, яка не пояснюється тим, як вони обидві змінюються у відповідь на варіації в обраній підмножині інших змінних.

Декореляція n випадкових змінних

Докладніше: Декореляція[en]

Завжди можливо усунути кореляції між усіма парами довільного числа випадкових змінних за допомогою перетворення даних, навіть якщо взаємозв'язок між цими змінними нелінійний. Подання цього результату для розподілів сукупностей навели Кокс та Гінклі.[45]

Існує відповідний результат для зведення до нуля й вибіркових кореляцій. Припустімо, що вектор з n випадкових змінних спостерігають m разів. Нехай X — матриця, де  — j-та змінна спостереження i. Нехай  — квадратна матриця m на m з усіма елементами 1. Тоді D — це дані, перетворені так, що кожна випадкова змінна має нульове середнє, а T — це дані, перетворені так, що всі змінні мають нульове середнє й нульову кореляцію з усіма іншими змінними, — вибіркова кореляційна матриця T буде одиничною матрицею. Це потрібно додатково поділити на стандартне відхилення, щоб отримати одиничну дисперсію. Перетворені змінні будуть некорельованими, хоч вони й можуть бути не незалежними.

де степінь +12 подає квадратний корінь оберненої матриці. Матриця кореляції T буде одиничною. Якщо нове спостереження даних x це рядковий вектор з n елементів, то те саме перетворення можливо застосувати й до x, щоб отримати перетворені вектори d та t:

Декореляція пов'язана з аналізом головних компонент для багатовимірних даних.

Програмні втілення

  • У базовому пакеті статистики R цей коефіцієнт кореляції втілено через cor(x, y), або (з P-значенням) через cor.test(x, y).
  • У бібліотеці Python SciPy — через pearsonr(x, y).
  • Бібліотека Python Pandas втілює обчислення коефіцієнта кореляції Пірсона як варіант за замовчуванням для методу pandas.DataFrame.corr
  • Wolfram Mathematica — через функцію Correlation, або (з P-значенням) через CorrelationTest.
  • Бібліотека C++ Boost — через функцію correlation_coefficient.
  • Excel має вбудовану функцію correl(array1, array2) для обчислення коефіцієнта кореляції Пірсона.

Див. також

Виноски

  1. Відомий також як r Пі́рсона (англ. Pearson's r), коефіціє́нт кореля́ції моме́нту до́бутку Пі́рсона (англ. Pearson product-moment correlation coefficient, PPMCC), двови́мірна кореля́ція (англ. bivariate correlation)[1] та просто неконкретизований коефіціє́нт кореля́ції (англ. correlation coefficient)[2]
  2. Ще 1877 року Гальтон використовував термін «реверсія» (англ. "reversion", див. регресію до середнього) й символ «r» для того, що згодом стане «регресією» (англ. "regression").[3][4][5]

Примітки

  1. SPSS Tutorials: Pearson Correlation (англ.).
  2. Correlation Coefficient: Simple Definition, Formula, Easy Steps. Statistics How To (англ.).
  3. Galton, F. (5–19 April 1877). Typical laws of heredity. Nature (англ.). 15 (388, 389, 390): 492—495, 512—514, 532—533. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. S2CID 4136393. У додатку «Appendix» на сторінці 532 Гальтон використовує термін «reversion» та символ r.
  4. Galton, F. (24 вересня 1885). The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section. Nature (англ.). 32 (830): 507—510.
  5. Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute of Great Britain and Ireland (англ.). 15: 246—263. doi:10.2307/2841583. JSTOR 2841583.
  6. Pearson, Karl (20 червня 1895). Notes on regression and inheritance in the case of two parents. Proceedings of the Royal Society of London (англ.). 58: 240—242. Bibcode:1895RSPS...58..240P.
  7. Stigler, Stephen M. (1989). Francis Galton's account of the invention of correlation. Statistical Science (англ.). 4 (2): 73—79. doi:10.1214/ss/1177012580. JSTOR 2245329.
  8. Analyse mathematique sur les probabilités des erreurs de situation d'un point. Mem. Acad. Roy. Sci. Inst. France. Sci. Math, et Phys. (фр.). 9: 255—332. 1844 — через Google Books.
  9. Wright, S. (1921). Correlation and causation. Journal of Agricultural Research (англ.). 20 (7): 557—585.
  10. а б в г д Real Statistics Using Excel, "Basic Concepts of Correlation" (англ.), отримано 22 лютого 2015 р.
  11. Weisstein, Eric W. Statistical Correlation. Wolfram MathWorld (англ.). Процитовано 22 серпня 2020.
  12. Moriya, N. (2008). Noise-related multivariate optimal joint-analysis in longitudinal stochastic processes. У Yang, Fengshan (ред.). Progress in Applied Mathematical Modeling (англ.). Nova Science Publishers, Inc.[en]. с. 223–260. ISBN 978-1-60021-976-4.
  13. Garren, Steven T. (15 червня 1998). Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data. Statistics & Probability Letters (англ.). 38 (3): 281—288. doi:10.1016/S0167-7152(98)00035-2.
  14. 2.6 - (Pearson) Correlation Coefficient r. STAT 462 (англ.). Процитовано 10 липня 2021.
  15. Introductory Business Statistics: The Correlation Coefficient r. opentextbc.ca (англ.). Процитовано 21 серпня 2020.
  16. Rodgers; Nicewander (1988). Thirteen ways to look at the correlation coefficient (PDF). The American Statistician (англ.). 42 (1): 59—66. doi:10.2307/2685263. JSTOR 2685263.
  17. Schmid, John Jr. (грудень 1947). The relationship between the coefficient of correlation and the angle included between regression lines. The Journal of Educational Research (англ.). 41 (4): 311—313. doi:10.1080/00220671.1947.10881608. JSTOR 27528906.
  18. Rummel, R.J. (1976). Understanding Correlation (англ.). гл. 5 (як проілюстровано для особливого випадку в наступному абзаці).
  19. Buda, Andrzej; Jarynowski, Andrzej (грудень 2010). Life Time of Correlations and its Applications (англ.). Wydawnictwo Niezależne. с. 5—21. ISBN 9788391527290.
  20. а б Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (англ.) (вид. 2nd).
  21. Bowley, A. L. (1928). The Standard Deviation of the Correlation Coefficient. Journal of the American Statistical Association (англ.). 23 (161): 31—34. doi:10.2307/2277400. ISSN 0162-1459. JSTOR 2277400.
  22. Derivation of the standard error for Pearson's correlation coefficient. Cross Validated (англ.). Процитовано 30 липня 2021.
  23. Rahman, N. A. (1968) A Course in Theoretical Statistics (англ.), Charles Griffin and Company, 1968
  24. Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship (англ.), Griffin. ISBN 0-85264-215-6 (Section 31.19)
  25. Soper, H.E.; Young, A.W.; Cave, B.M.; Lee, A.; Pearson, K. (1917). On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study. Biometrika[en] (англ.). 11 (4): 328—413. doi:10.1093/biomet/11.4.328.
  26. Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (January 2013). Filtering induces correlation in fMRI resting state data. NeuroImage (англ.). 64: 728—740. doi:10.1016/j.neuroimage.2012.08.022. hdl:11343/44035. PMID 22939874. S2CID 207184701.
  27. Hotelling, Harold (1953). New Light on the Correlation Coefficient and its Transforms. Journal of the Royal Statistical Society. Series B (Methodological) (англ.). 15 (2): 193—232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
  28. Kenney, J.F.; Keeping, E.S. (1951). Mathematics of Statistics (англ.). Т. Part 2 (вид. 2nd). Princeton, NJ: Van Nostrand.
  29. Weisstein, Eric W. Correlation Coefficient—Bivariate Normal Distribution. Wolfram MathWorld (англ.).
  30. Taraldsen, Gunnar (2020). Confidence in Correlation. ResearchGate (англ.). doi:10.13140/RG.2.2.23673.49769.
  31. Lai, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing W.Y.; Jia, Youwei; Yuan, Haoliang; Huang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (січень 2019). A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty (PDF). Information Sciences (англ.). 470: 58—77. doi:10.1016/j.ins.2018.08.017. S2CID 52878443.
  32. а б Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing (англ.). Academic Press.
  33. Devlin, Susan J.; Gnanadesikan, R.; Kettenring J.R. (1975). Robust estimation and outlier detection with correlation coefficients. Biometrika (англ.). 62 (3): 531—545. doi:10.1093/biomet/62.3.531. JSTOR 2335508.
  34. Huber, Peter. J. (2004). Robust Statistics (англ.). Wiley.[сторінка?]
  35. Vaart, A. W. van der (13 жовтня 1998). Asymptotic Statistics (англ.). Cambridge University Press. ISBN 978-0-511-80225-6.
  36. Katz., Mitchell H. (2006) Multivariable Analysis – A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. (англ.) ISBN 978-0-521-54985-1. ISBN 0-521-54985-X
  37. Hotelling, H. (1953). New Light on the Correlation Coefficient and its Transforms. Journal of the Royal Statistical Society. Series B (Methodological) (англ.). 15 (2): 193—232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
  38. Olkin, Ingram; Pratt,John W. (March 1958). Unbiased Estimation of Certain Correlation Coefficients. The Annals of Mathematical Statistics (англ.). 29 (1): 201—211. doi:10.1214/aoms/1177706717. JSTOR 2237306..
  39. Re: Compute a weighted correlation. sci.tech-archive.net (англ.).
  40. Weighted Correlation Matrix – File Exchange – MATLAB Central (англ.). Архів оригіналу за 15 травня 2021. Процитовано 14 січня 2024.
  41. Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). Scaled correlation analysis: a better way to compute a cross-correlogram (PDF). European Journal of Neuroscience (англ.). 35 (5): 1—21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
  42. Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (англ.) (pp. 110) ISBN 1-4020-8879-5
  43. Immink, K. Schouhamer; Weber, J. (жовтень 2010). Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch. IEEE Transactions on Information Theory (англ.). 60 (10): 5966—5974. CiteSeerX 10.1.1.642.9971. doi:10.1109/tit.2014.2342744. S2CID 1027502. Процитовано 11 лютого 2018.
  44. Jammalamadaka, S. Rao; SenGupta, A. (2001). Topics in circular statistics (англ.). New Jersey: World Scientific. с. 176. ISBN 978-981-02-3778-3. Процитовано 21 вересня 2016.
  45. Cox, D.R.; Hinkley, D.V. (1974). Theoretical Statistics (англ.). Chapman & Hall. Appendix 3. ISBN 0-412-12420-3.

Посилання

  • cocor. comparingcorrelations.org (англ.). — Безкоштовний вебінтерфейс та пакет R для статистичного порівняння двох залежних або незалежних кореляцій з перетинними або неперетинними змінними.
  • Correlation. nagysandor.eu (англ.). — інтерактивна флешсимуляція кореляції двох нормально розподілених змінних.
  • Correlation coefficient calculator. hackmath.net. Linear regression (англ.).
  • Critical values for Pearson's correlation coefficient (PDF). frank.mtsu.edu/~dkfuller. — велика таблиця.
  • Guess the Correlation (англ.). — Гра, в якій гравці вгадують, наскільки корельовані дві змінні на діаграмі розсіювання, щоби краще зрозуміти поняття кореляції.

Read other articles:

«Клеветникам России» Жанр ода Автор Пушкин, Александр Сергеевич Язык оригинала русский Дата написания 2 или 16 августа 1831 Дата первой публикации На взятие Варшавы. Три стихотворения В. Жуковского и А. Пушкина. — СПб., 1831 Текст произведения в Викитеке Медиафайлы на Викис�...

 

Determination of whether an individual or family is eligible for government assistance A means test is a determination of whether an individual or family is eligible for government assistance or welfare, based upon whether the individual or family possesses the means to do without that help. Canada Main article: Social programs in Canada In Canada, means tests are used for student finance (for post-secondary education), legal aid, and welfare (direct transfer payments to individuals to combat...

 

This article is about the town in Suffolk, England. For other uses, see Ipswich (disambiguation). Town and borough in EnglandIpswich Borough of IpswichTown and boroughChristchurch MansionSt Mary-le-TowerIpswich WaterfrontOrwell BridgeIpswich Town Centre Coat of armsMotto(s): Munia civitatis decus civium(The functions of citizenship are the glory of the citizens)Location within SuffolkIpswichLocation within EnglandShow map of EnglandIpswichLocation within the United KingdomShow map of the...

Village in Maharashtra This article is an orphan, as no other articles link to it. Please introduce links to this page from related articles; try the Find link tool for suggestions. (January 2018) Village in Maharashtra, IndiaWadachiwadivillageCountry IndiaStateMaharashtraDistrictSolapur districtLanguages • OfficialMarathiTime zoneUTC+5:30 (IST) Wadachiwadi is a village in the Karmala taluka of Solapur district in Maharashtra state, India. Demographics Covering 280 hectares (...

 

Species of tree Ulmus laevis habitus of an old specimen, Germany Conservation status Data Deficient  (IUCN 3.1)[1] Scientific classification Kingdom: Plantae Clade: Tracheophytes Clade: Angiosperms Clade: Eudicots Clade: Rosids Order: Rosales Family: Ulmaceae Genus: Ulmus Subgenus: U. subg. Oreoptelea Section: U. sect. Blepharocarpus Species: U. laevis Binomial name Ulmus laevisPall. Distribution map Synonyms Ulmus acuta Dumrt. Ulmus ciliata Ehrh. Ulmus effusa Willd., Loudon...

 

Island in Nunavut, Canada Not to be confused with Ontario's Stag Island. Stag IslandStag Island's location in James BayStag IslandShow map of NunavutStag IslandShow map of CanadaGeographyLocationJames BayCoordinates51°39′01″N 79°04′28″W / 51.65028°N 79.07444°W / 51.65028; -79.07444 (Stag Island)ArchipelagoArctic ArchipelagoAdministrationCanadaTerritoryNunavutRegionQikiqtaalukDemographicsPopulation0 Stag Island is an uninhabited island in the souther...

شعار جائزة نوبل. منذ عام 1966، كان هناك 12 إسرائيلي حصل على جائزة نوبل. جائزة نوبل هي الجائزة الأكثر تشريفاً في مجالات السلام، والأدب، والفيزياء، والكيمياء، والطب والاقتصاد وهي جائزة مقرها السويد. وفيما يلي قائمة كاملة عن أسماء الأشخاص الإسرائيليين الحائزين على جائزة نوبل ...

 

Senapati, penguasa pertama Mataram Senapati (Jawa: ꦱꦺ (se)ꦤ​ (na)ꦥ (pa)ꦠꦶ (ti), translit. senapati, dieja juga sebagai senopati) adalah istilah yang digunakan untuk menyebut jabatan panglima dalam sejarah kerajaan-kerajaan di Jawa. Istilah ini merupakan kata serapan dari bahasa Sanskerta, yaitu sena yang bermakna tentara dan pati yang bermakna pemimpin. Istilah senapati tidak hanya digunakan pada masa kerajaan Hindu-Buddha, tetapi tetap digunakan pada ma...

 

Sultans in Egypt from 1174 to 1341 Ayyubid Sultanate of Egyptالأيوبيون (Arabic)al-Ayyūbīyūnئەیووبی (Sorani Kurdish)Eyûbî (Kurdish)1171–1260a/1341 Left: Banner of the Ayyubid dynastyRight: Saladin's personal standardAyyubid Sultanate of Egypt (in pink) at the death of Saladin in 1193StatusSovereign state(1171–1260)Capital Cairo (1171–1174; 1218–1250) Damascus (1174–1218) Aleppo (1250–1260) Hama (until 1341) Common languages Arabic (spoken,&#...

English novelist and poet (1816–1855) Charlotte BrontëPortrait by George Richmond(1850, chalk on paper)Born(1816-04-21)21 April 1816Thornton, Yorkshire, EnglandDied31 March 1855(1855-03-31) (aged 38)Haworth, Yorkshire, EnglandResting placeSt Michael and All Angels' Church, HaworthPen name Lord Charles Albert Florian Wellesley Currer Bell OccupationNovelist, poet, governessGenreFiction, poetryNotable works Jane Eyre Villette Spouse Arthur Bell Nicholls ​ ​(m. 1...

 

American traditionally animated children's television series FoofurFoofur and his groupGenreAdventureComedySlice of lifeCreated byPhil MendezDirected byArt Davis (Season 1)Don Lusk (Season 1)Carl Urbano (Season 1)Rudy Zamora (Season 1)Oscar Dufau (Season 2)Bob Goe (Season 2)John Kimball (Season 2)Paul Sommer (Season 2)Ray Patterson (supervising director)Voices ofMichael BellPat CarrollPeter CullenDavid DoyleDick GautierChristina LangeAllan MelvinDon MessickJonathan SchmockSusan SiloSusan Tols...

 

Disambiguazione – Se stai cercando altri significati, vedi Retroscena (disambigua). Una stampa del 1855 che mostra il retroscena dell'Opéra di Parigi Il retroscena di un teatro odierno I Whitesnake nel retroscena di un loro concerto del 1990 Il retroscena di una sfilata di moda Il retroscena del Sziget Festival del 2006 Il retroscena o dietro le quinte (in inglese rispettivamente backstage e behind the scenes) è la parte retrostante il palcoscenico. Tale termine viene usato retoricamente...

StereotypeAlbum mini karya StayCDirilis6 September 2021 (2021-09-06)Durasi12:56BahasaKoreaLabel High Up Kakao Produser Black Eyed Pilseung Jeon Goon Kronologi StayC Staydom(2021) Stereotype(2021) Young-Luv.com(2022) Singel dalam album Stereotype StereotypeDirilis: 6 September 2021 Sterotype (juga ditulis dalam huruf besar semua) adalah album mini pertama oleh grup vokal wanita Korea Selatan StayC yang dirilis hampir 10 bulan setelah debut. Album mini ini dirilis pada 6 September 2021...

 

伊斯兰合作组织Organisation of Islamic Cooperation(英語)Organisation de la Coopération Islamique(法語)منظمة التعاون الإسلامي(阿拉伯語) 旗帜格言:To safeguard the interests and ensure the progress and well-being of Muslims  成员国  观察国  暂停会籍行政总部 沙地阿拉伯吉达 官方语言阿拉伯语英语法语类型宗教成员国57个在籍成员国(英语:Member states of the Organisation ...

 

American financial weekly newspaper For other uses, see Barron's (disambiguation). Barrons redirects here. For the general, see Richard Barrons. Barron'sApril 5, 2021 cover of Barron'sEditor in ChiefDavid ChoCategoriesBusinessFrequencyWeeklyTotal circulation(2013)305,513[1]FounderClarence W. BarronFirst issue1921; 103 years ago (1921)CompanyDow Jones & Company (News Corp)CountryUnited StatesBased inNew York City, New York, U.S.Websitewww.barrons.comISSN1077-8039 ...

سبايرو: موسم الجليد شعار اللعبة المطور دجتل اكلبس سوفتوير الناشر يونفارسل انتراكتف ستوديوزكونامي الموزع كونامي سلسلة اللعبة سبايرو  النظام جيم بوي أدفانس تاریخ الإصدار 29 أكتوبر2001 أمريكا الشمالية نوع اللعبة أكشن النمط لاعب واحد التقدير E للجميع الوسائط خرطوشة روم  ا...

 

Species of mammal Apennine shrew Conservation status Least Concern  (IUCN 3.1)[1] Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Mammalia Order: Eulipotyphla Family: Soricidae Genus: Sorex Species: S. samniticus Binomial name Sorex samniticusAltobello, 1926 Apennine Shrew range The Apennine shrew (Sorex samniticus) is a species of shrew in the family Soricidae. It is endemic to Italy. References ^ Amori, G. (2016). Sorex samniticus. IUC...

 

Any process that has the aim of augmenting knowledge, resolving doubt, or solving a problem Enquiry redirects here. For the use in computer science, see Enquiry character. For other uses, see Enquiry (disambiguation) and Inquiry (disambiguation). This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (March 2013) (Learn how and when to remove this message) A question...

2018 film by Rob Greenberg OverboardTheatrical release posterDirected by Rob Greenberg Screenplay by Bob Fisher Rob Greenberg Leslie Dixon Based onOverboardby Leslie DixonProduced by Eugenio Derbez Benjamin Odell Bob Fisher Starring Eugenio Derbez Anna Faris Eva Longoria Mel Rodriguez Cecilia Suárez Mariana Treviño Fernando Luján John Hannah CinematographyMichael BarrettEdited byLee HaxallMusic byLyle WorkmanProductioncompaniesMetro-Goldwyn-MayerPantelion Films[1]3Pas StudiosDistri...

 

Untuk orang lain dengan nama yang sama, lihat Bjarni Benediktsson. Bjarni Benediktsson Perdana Menteri Islandia ke-13Masa jabatan14 November 1963 – 10 Juli 1970PresidenÁsgeir ÁsgeirssonKristján EldjárnPendahuluÓlafur ThorsPenggantiJóhann HafsteinMasa jabatan8 September 1961 – 31 Desember 1961PresidenÁsgeir ÁsgeirssonPendahuluÓlafur ThorsPenggantiÓlafur Thors Informasi pribadiLahir(1908-04-30)30 April 1908Reykjavík, IslandiaMeninggal10 Juli 1970(1970-07-10) (um...