Згруповані дані — це дані, що формуються шляхом агрегування окремих спостережень[en] змінної в групи, так що частотний розподіл цих груп служить зручним засобом для узагальнення або аналізу даних. Існує два основних типи групування: об'єднання даних[en] одновимірної змінної, коли замість окремих значень використовуються підрахунки у кошиках (групах); та групування багатовимірних змінних за деякими вимірами (головним чином за незалежними змінними), отримання розподілу вимірів, по яким не відбувається групування (надто за залежними змінними).
Групування даних має на меті їх стиснення без суттєвої втрати вибіркою інформативності, та полегшення подальшої роботи з даними.
Приклад
Ідею згрупованих даних можна проілюструвати, розглянувши такий необроблений набір даних:
Таблиця 1: Час, затрачений групою учнів (у секундах) на відповідь на просте математичне запитання
20
|
25
|
24
|
33
|
13
|
26
|
8
|
19
|
31
|
11
|
16
|
21
|
17
|
11
|
34
|
14
|
15
|
21
|
18
|
17
|
Наведені вище дані можна згрупувати для побудови розподілу частоти будь-яким із кількох способів. Один із методів — використовувати інтервали як основу.
Найменше значення у наведених даних — 8, а найбільше — 34. Інтервал від 8 до 34 розбивається на менші підінтервали (які називаються інтервалами класів). Для кожного інтервалу класу підраховується кількість елементів даних, що потрапляють у цей інтервал. Це число називається частотою інтервалу цього класу. Результати представлені у вигляді таблиці частот:
Таблиця 2: Розподіл частоти часу, затраченого групою учнів (у секундах) на відповідь на просте математичне запитання
Час (у секундах)
|
Частота
|
5 ≤ t <10
|
1
|
10 ≤ t <15
|
4
|
15 ≤ t <20
|
6
|
20 ≤ t <25
|
4
|
25 ≤ t <30
|
2
|
30 ≤ t <35
|
3
|
Ще один спосіб групування даних — це використання деяких якісних характеристик замість числових інтервалів. Наприклад, припустимо, що в наведеному вище прикладі, є три типи учнів: 1) нижче норми, якщо час реакції складає від 5 до 14 секунд, 2) нормальна, це між 15 і 24 сек, і 3) вище норми, якщо час становить 25 секунд або більше, потім згруповані дані мають такий вигляд:
Таблиця 3: Частотний розподіл трьох типів учнів
|
Частота
|
Нижче норми
|
5
|
Звичайний
|
10
|
Вище норми
|
5
|
Ще одним прикладом групування даних є використання деяких часто використовуваних числових значень, які насправді є «іменами», які ми присвоюємо категоріям. Наприклад, давайте розглянемо віковий розподіл учнів у класі. Учням може бути 10 років, 11 років або 12 років. Це вікові групи 10, 11 та 12 років. Зверніть увагу, що школярі у віковій групі 10 мають вік від 10 років та 0 днів до 10 років та 364 днів, отже, їх середній вік становить 10,5 років, якщо дивитись на вік по неперервній шкалі. Згруповані дані виглядають так:
Таблиця 4: Розподіл за віком класу учнів
Вік
|
Частота
|
10
|
10
|
11
|
20
|
12
|
10
|
Середнє значення згрупованих даних
Оцінка середнього значення сукупності, , з якої дані можуть бути обчислені з згрупованих даних, як:
У цій формулі х відноситься до середньої точки інтервалів класу, і f є частотою класу. Слід зазначити, що результат цього буде відрізнятися від вибіркового середнього[en]. Середнє значення для згрупованих даних у наведеному вище прикладі, можна розрахувати таким чином:
Клас інтервалів
|
Частота (f)
|
Середнє значення (x)
|
f x
|
5 та вище, але нижче 10
|
1
|
7.5
|
7.5
|
10 ≤ t < 15
|
4
|
12.5
|
50
|
15 ≤ t < 20
|
6
|
17.5
|
105
|
20 ≤ t < 25
|
4
|
22.5
|
90
|
25 ≤ t < 30
|
2
|
27.5
|
55
|
30 ≤ t < 35
|
3
|
32.5
|
97.5
|
Разом
|
20
|
|
405
|
Таким чином, середнє значення згрупованих даних є:
Середнє значення згрупованих даних у наведеному вище прикладі 4 може бути обчислено так:
Вікова група
|
Частота ( f )
|
Середнє значення (x)
|
f x
|
10
|
10
|
10.5
|
105
|
11
|
20
|
11.5
|
230
|
12
|
10
|
12.5
|
125
|
Разом
|
40
|
|
460
|
Таким чином, середнє значення згрупованих даних становить
Див. також
Посилання
- Newbold, P.; Carlson, W.; Thorne, B. (2009). Statistics for Business and Economics (вид. Seventh). Pearson Education. ISBN 978-0-13-507248-6.