Варіаційний ряд та статистичний розподіл вибірки. Побудова інтервального варіаційного ряду безперервних кількісних даних. Види статистичних угруповань

В результаті освоєння дайного розділу студент повинен: знати

  • показники варіації та їх взаємозв'язок;
  • основні закони розподілу ознак;
  • сутність критеріїв згоди; вміти
  • розраховувати показники варіації та критерії згоди;
  • визначати характеристики розподілу;
  • оцінювати основні числові характеристики статистичних рядів розподілу;

володіти

  • методами статистичного аналізу рядів розподілу;
  • основами дисперсійного аналізу;
  • прийомами перевірки статистичних рядів розподілу відповідність основним законам розподілу.

Показники варіації

При статистичному дослідженні ознак різних статистичних сукупностей великий інтерес представляє вивчення варіації ознаки окремих статистичних одиниць сукупності, і навіть характеру розподілу одиниць за цією ознакою. Варіація -це відмінності індивідуальних значень ознаки в одиниць сукупності, що вивчається. Дослідження варіації має велике практичного значення. За рівнем варіації можна будувати висновки про межі варіації ознаки, однорідності сукупності за цією ознакою, типовості середньої, взаємозв'язку чинників, визначальних варіацію. Показники варіації використовуються для характеристики та впорядкування статистичних сукупностей.

Результати зведення та угруповання матеріалів статистичного спостереження, оформлені у вигляді статистичних рядів розподілу, являють собою впорядкований розподіл одиниць сукупності, що вивчається, на групи за групувальною (варіюючою) ознакою. Якщо за основу угруповання взято якісну ознаку, то такий ряд розподілу називають атрибутивним(Розподіл за професією, за статтю, за кольором і т.д.). Якщо ряд розподілу побудований за кількісною ознакою, то такий ряд називають варіаційним(розподіл за зростанням, вагою, за розміром заробітної платиі т.д.). Побудувати варіаційний ряд - отже впорядкувати кількісний розподіл одиниць сукупності за значеннями ознаки, підрахувати кількість одиниць сукупності з цими значеннями (частоту), результати оформити до таблиці.

Замість частоти варіанта можливе застосування її ставлення до загального обсягу спостережень, що називається частотою (відносною частотою).

Виділяють два види варіаційного ряду: дискретний та інтервальний. Дискретний ряд- це такий варіаційний ряд, основою побудови якого покладено ознаки з перервним зміною (дискретні ознаки). До останніх можна віднести кількість працівників на підприємстві, тарифний розряд, кількість дітей у сім'ї тощо. Дискретний варіаційний ряд представляє таблицю, що складається із двох граф. У першій графі вказується конкретне значення ознаки, тоді як у другий - число одиниць сукупності з певним значенням ознаки. Якщо ознака має безперервну зміну (розмір доходу, стаж роботи, вартість основних фондів підприємства тощо, які у певних межах можуть приймати будь-які значення), то для цієї ознаки можлива побудова інтервального варіаційного ряду.Таблиця під час побудови інтервального варіаційного ряду також має дві графи. У першій вказується значення ознаки в інтервалі від - до (варіанти), у другій - число одиниць, що входять в інтервал (частота). Частота (частота повторення) – число повторень окремого варіанта значень ознаки. Інтервали можуть бути закриті та відкриті. Закриті інтервали обмежені по обидва боки, тобто. мають межу як нижню («від»), і верхню («до»). Відкриті інтервали мають якусь одну межу: або верхню, або нижню. Якщо варіанти розташовані за зростанням або спаданням, то ряди називаються ранжованими.

Для варіаційних рядів існує два типи варіантів частотних характеристик: накопичена частота та накопичена частота. Накопичена частота показує, у скількох спостереженнях величина ознаки прийняла значення менше заданого. Накопичена частота визначається шляхом підсумовування значень частоти ознаки цієї групи з усіма частотами попередніх груп. Накопичена частина характеризує питому вагу одиниць спостереження, які мають значення ознаки перевищують верхню межу дайної групи. Таким чином, накопичена частина показує питому вагу варіант у сукупності, що мають значення не більше даного. Частота, частота, абсолютна та відносна щільності, накопичені частота та частота є характеристиками величини варіанта.

Варіації ознаки статистичних одиниць сукупності, і навіть характер розподілу вивчаються з допомогою показників і показників варіаційного ряду, до яких ставляться середній рівень низки, середнє лінійне відхилення, середнє квадратичне відхилення, дисперсія, коефіцієнти осциляції, варіації, асиметрії, ексцесу та інших.

Для характеристики центру розподілу використовуються середні величини. Середня являє собою узагальнюючу статистичну характеристику, в якій отримує кількісне вираження типовий рівень ознаки, яким володіють члени сукупності, що вивчається. Однак можливі випадки збігу середніх арифметичних при різному характері розподілу, тому як статистичні характеристики варіаційних рядів розраховуються так звані структурні середні - мода, медіана, а також квантили, які поділяють ряд розподілу на рівні частини (квартілі, децилі, перцентілі тощо). ).

Модаце значення ознаки, що зустрічається у ряді розподілу частіше, ніж інші його значення. Для дискретних рядів – це варіанти, що мають найбільшу частоту. В інтервальних варіаційних рядах з метою визначення моди необхідно визначити насамперед інтервал, в якому вона знаходиться, так званий модальний інтервал. У варіаційному ряду з рівними інтервалами модальний інтервал визначається за найбільшою частотою, у рядах з нерівними інтервалами - але найбільшою густиною розподілу. Потім для визначення моди в рядах із рівними інтервалами застосовують формулу

де Мо – значення моди; х Мо - нижня межа модального інтервалу; h -ширина модального інтервалу; / Мо - частота модального інтервалу; / Mo j - частота домодального інтервалу; / Мо+1 - частота післямодального інтервалу, а для ряду з нерівними інтервалами в даній формулі розрахунку замість частот / Мо, / Мо, / Мо слід використовувати густини розподілу Розум 0 _| , Розум 0> Умо+"

Якщо є єдина мода, то розподіл ймовірностей випадкової величининазивається унімодальним; якщо є більш ніж одна мода, воно називається багатомодальним (полімодальним, мультимодальним), у разі двох мод – бімодальним. Як правило, багатомодальність вказує, що розподіл, що досліджується, не підпорядковується закону нормального розподілу. Для однорідних сукупностей, зазвичай, характерні одновершинні розподіли. Багатовершинність свідчить також про неоднорідність сукупності, що вивчається. Поява двох і більше вершин робить необхідним перегрупування даних з метою виділення однорідніших груп.

В інтервальному варіаційному ряді моду можна визначити графічно за допомогою гістограми. Для цього з верхніх точок найвищого стовпця гістограми до верхніх точок двох суміжних стовпців проводять дві лінії, що перетинаються. Потім із точки їх перетину опускають перпендикуляр на вісь абсцис. Значення ознаки на осі абсцис, що відповідає перпендикуляру, є модою. У багатьох випадках при характеристиці сукупності як узагальнений показник віддається перевагу моді, а не середній арифметичній.

Медіана -це центральне значення ознаки, ним має центральний член ранжованого ряду розподілу. У дискретних рядах, щоб знайти значення медіани, спочатку визначається її порядковий номер. Для цього при непарному числі одиниць до суми всіх частот додається одиниця, число поділяється на два. При парному числі одиниць у ряду буде дві медіані одиниці, тому в цьому випадку медіана визначається як середня із значень двох медіанних одиниць. Таким чином, медіаною в дискретному варіаційному ряду є значення, яке поділяє ряд на дві частини, що містять однакову кількість варіантів.

В інтервальних рядах після визначення порядкового номера медіани знаходиться медіальний інтервал за накопиченими частотами (частотами), а потім за допомогою формули розрахунку медіани визначається значення самої медіани:

де Me – значення медіани; х Ме -нижня межа медіанного інтервалу; h -ширина медіанного інтервалу; - Сума частот ряду розподілу; /Д - накопичена частота домедіанного інтервалу; / Ме – частота медіанного інтервалу.

Медіану можна знайти графічно за допомогою кумуляти. Для цього на шкалі накопичених частот (частин) кумуляти з точки, що відповідає порядковому номеру медіани, проводиться пряма, паралельна осіабсцис, до перетину з кумулятою. Далі з точки перетину зазначеної прямої з кумулятою опускається перпендикуляр на вісь абсцис. Значення ознаки на осі абсцис, що відповідає проведеній ординаті (перпендикуляру), є медіаною.

Медіана характеризується такими властивостями.

  • 1. Вона залежить від тих значень ознаки, які розташовані з обох боків від неї.
  • 2. Вона має властивість мінімальності, яка полягає в тому, що сума абсолютних відхилень значень ознаки від медіани є мінімальною величиною порівняно з відхиленням значень ознаки від будь-якої іншої величини.
  • 3. При об'єднанні двох розподілів із відомими медіанами неможливо заздалегідь передбачити величину медіани нового розподілу.

Ці властивості медіани широко використовуються при проектуванні розташування пунктів масового обслуговування – шкіл, поліклінік, автозаправних станцій, водозабірних колонок тощо. Наприклад, якщо у певному кварталі міста передбачається побудувати поліклініку, то розташувати її доцільніше у такій точці кварталу, яка ділить навпіл не довжину кварталу, а кількість жителів.

Співвідношення моди, медіани та середньої арифметичної вказує на характер розподілу ознаки в сукупності, що дозволяє оцінити симетричність розподілу. Якщо x Me має місце правостороння асиметрія ряду. При нормальному розподілі х - Me - Мо.

К. Пірсон на основі вирівнювання різних типів кривих визначив, що для помірно асиметричних розподілів справедливі такі наближені співвідношення між середньою арифметичною, медіаною та модою:

де Me – значення медіани; Мо – значення моди; х арифм - значення середньої арифметичної.

Якщо виникає необхідність вивчити структуру варіаційного ряду докладніше, то обчислюють значення ознаки, аналогічні медіані. Такі значення ознаки ділять усі одиниці розподілу на рівні чисельності, їх називають квантилями чи градієнтами. Квантилі поділяються на квартілі, децилі, перцентілі тощо.

Квартілі ділять сукупність чотирма рівні частини. Першу квартиль обчислюють аналогічно медіані за формулою розрахунку першої квартілі, попередньо визначивши перший квартальний інтервал:

де Qi – значення першої квартілі; x Q^-нижня межа першого квартильного інтервалу; h- Ширина першого квартального інтервалу; /, - Частоти інтервального ряду;

Накопичена частота в інтервалі, що передує першому квартільї інтервалу; Jq (- Частота першого квартильного інтервалу.

Перша квартиль показує, що 25% одиниць сукупності менше за її значення, а 75% - більше. Друга квартиль дорівнює медіані, тобто. Q 2 = Me.

За аналогією розраховують третю квартиль, попередньо знайшовши третій квартальний інтервал:

де – нижня межа третього квартильного інтервалу; h- Ширина третього квартильного інтервалу; /, - Частоти інтервального ряду; /X" -накопичена частота в інтервалі, що передує

г

третьому квартільйому інтервалу; Jq – частота третього квартильного інтервалу.

Третя квартиль показує, що 75% одиниць сукупності менше за її значення, а 25% - більше.

Різниця між третьою та першою квартилями являє собою міжквартильний інтервал:

де Aq – значення міжквартильного інтервалу; Q 3 -значення третьої квартири; Q - значення першої квартілі.

Децилі ділять сукупність на 10 рівних частин. Дециль - це значення ознаки у ряді розподілу, якому відповідають десяті частки чисельності сукупності. За аналогією з квартилями перший дециль показує, що 10% одиниць сукупності менше його значення, а 90% - більше, а дев'ятий дециль виявляє, що 90% одиниць сукупності менше його значення, а 10% - більше. Співвідношення дев'ятого та першого децилей, тобто. децильний коефіцієнт, широко застосовується щодо диференціації доходів для виміру співвідношення рівнів доходів 10% найбільш забезпеченого і 10% найменш забезпеченого населення. Перцентілі ділять ранжовану сукупність на 100 рівних частин. Розрахунок, значення та застосування перцентилів аналогічні децилям.

Квартілі, децилі та інші структурні характеристики можна визначити графічно за аналогією з медіаною за допомогою кумуляти.

Для вимірювання розміру варіації застосовуються такі показники: розмах варіації, середнє лінійне відхилення, середнє квадратичне відхилення, дисперсія. Розмір розмаху варіації цілком залежить від випадковості розподілу крайніх членів низки. Цей показник становить інтерес у випадках, коли важливо знати, яка амплітуда коливань значень ознаки:

де R -значення розмаху варіації; х тах – максимальне значення ознаки; х тт -мінімальне значення ознаки.

При розрахунку розмаху варіації значення переважної більшості членів низки не враховується, тоді як варіація пов'язані з кожним значенням члена ряду. Цього недоліку позбавлені показники, які є середні, отримані з відхилень індивідуальних значень ознаки від середньої величини: середнє лінійне відхилення і середнє квадратичне відхилення. Між індивідуальними відхиленнями від середньої та коливання конкретної ознаки існує пряма залежність. Чим сильніша коливання, тим більші абсолютні розміри відхилень від середньої.

Середнє лінійне відхилення є середню арифметичну з абсолютних величин відхилень окремих варіантів від їх середньої величини.

Середнє лінійне відхилення для несгрупованих даних

де / пр – значення середнього лінійного відхилення; х, - значення ознаки; х - п -кількість одиниць сукупності.

Середнє лінійне відхилення згрупованого ряду

де / вз – значення середнього лінійного відхилення; х - значення ознаки; х -середнє значення ознаки для досліджуваної сукупності; / - Число одиниць сукупності в окремій групі.

Знаки відхилень у даному випадкуігноруються, інакше сума всіх відхилень дорівнюватиме нулю. Середнє лінійне відхилення в залежності від угруповання аналізованих даних розраховується за різними формулами: для згрупованих та негрунірованих даних. Середнє лінійне відхилення в силу його умовності окремо від інших показників варіації застосовується практично порівняно рідко (зокрема, для характеристики виконання договірних зобов'язань щодо рівномірності поставки; в аналізі обороту зовнішньої торгівлі, складу працюючих, ритмічності виробництва, якості продукції з урахуванням технологічних особливостей виробництва та т.п.).

Середнє квадратичне відхилення характеризує, наскільки в середньому відхиляються індивідуальні значення ознаки, що вивчається від середнього значення за сукупністю, і виражається в одиницях вимірювання ознаки, що вивчається. Середнє квадратичне відхилення, будучи однією з основних заходів варіації, широко використовується в оцінці меж варіації ознаки в однорідної сукупності, щодо значень ординат кривої нормального розподілу, соціальній та розрахунках, пов'язаних з організацією вибіркового спостереження та встановленням точності вибіркових характеристик. Середнє квадратичне відхилення але необгрунтованим даним обчислюється за наступним алгоритмом: кожне відхилення від середньої зводиться в квадрат, всі квадрати підсумовуються, після чого сума квадратів ділиться на число членів ряду і з приватного витягується квадратний корінь:

де a Iip – значення середнього квадратичного відхилення; Xj -значення ознаки; х- Середнє значення ознаки для досліджуваної сукупності; п -кількість одиниць сукупності.

Для згрупованих аналізованих даних середнє відхилення даних розраховується за зваженою формулою

де - значення середнього квадратичного відхилення; Xj -значення ознаки; х -середнє значення ознаки для досліджуваної сукупності; f x -кількість одиниць сукупності в окремій групі.

Вираз під коренем в обох випадках зветься дисперсією. Таким чином, дисперсія обчислюється як середній квадрат відхилень значень ознаки їх середньої величини. Для незважених (простих) значень ознаки дисперсія визначається так:

Для зважених значень ознаки

Існує також спеціальний спрощений спосіб розрахунку дисперсії: у загальному вигляді

для невважених (простих) значень ознаки для зважених значень ознаки
з використанням методу відліку від умовного нуля

де а 2 – значення дисперсії; х, - значення ознаки; х -середнє значення ознаки, h -величина групового інтервалу, т 1 -ваги (А =

Дисперсія має самостійний вираз у статистиці і належить до найважливіших показників варіації. Вона вимірюється в одиницях, що відповідають квадрату одиниць вимірювання ознаки, що вивчається.

Дисперсія має такі властивості.

  • 1. Дисперсія постійної величини дорівнює нулю.
  • 2. Зменшення всіх значень ознаки на ту саму величину Л не змінює величини дисперсії. Це означає, що середній квадрат відхилень можна обчислити за заданими значеннями ознаки, а, по відхиленням їх від якогось постійного числа.
  • 3. Зменшення вєх значень ознаки kраз зменшує дисперсію в k 2 рази, а середнє квадратичне відхилення - у kразів, тобто. всі значення ознаки можна розділити якесь постійне число (скажімо, на величину інтервалу ряду), обчислити середнє квадратичне відхилення, та був помножити їх у постійне число.
  • 4. Якщо обчислити середній квадрат відхилень від будь-якої величини А утією чи іншою мірою відрізняється від середньої арифметичної, він завжди буде більше середнього квадрата відхилень, обчисленого від середньої арифметичної. Середній квадрат відхилень при цьому буде більшим на цілком певну величину - на квадрат різниці середньої і цієї умовно взятої величини.

Варіація альтернативної ознаки полягає в наявності або відсутності досліджуваної властивості одиниць сукупності. Кількісно варіація альтернативної ознаки виражається двома значеннями: наявність у одиниці досліджуваної властивості позначається одиницею (1), яке відсутність - нулем (0). Частку одиниць, які мають досліджувану властивість, позначають через Р, а частку одиниць, що не володіють цією властивістю, - через G.Таким чином, дисперсія альтернативної ознаки дорівнює добутку частки одиниць, що володіють даною властивістю (Р), на частку одиниць, що даною властивістю не мають (G).Найбільша варіація сукупності досягається у випадках, коли частина сукупності, що становить 50% від усього обсягу сукупності, має ознаку, а інша частина сукупності, також рівна 50%, не має даної ознаки, при цьому дисперсія досягає максимального значення, що дорівнює 0,25, т .е. Р = 0,5, G = 1 - Р = 1 - 0,5 = 0,5 та про 2 = 0,5 0,5 = 0,25. Нижня межа цього показника дорівнює нулю, що відповідає ситуації, коли у сукупності відсутня варіація. Практичне застосування дисперсії альтернативної ознаки полягає у побудові довірчих інтервалів під час проведення вибіркового спостереження.

Чим менше значення дисперсії та середнього квадратичного відхилення, тим однорідніша сукупність і тим більш типовою буде середня величина. На практиці статистики часто виникає необхідність порівняння варіацій різних ознак. Наприклад, цікавим є порівняння варіацій віку робітників та їх кваліфікації, стажу роботи та розміру заробітної плати, собівартості та прибутку, стажу роботи та продуктивності праці тощо. Для таких зіставлень показники абсолютної коливань ознак непридатні: не можна порівнювати коливання стажу роботи, вираженого в роках, з варіацією заробітної плати, вираженої в рублях. Для здійснення таких порівнянь, а також порівнянь коливання однієї й тієї ж ознаки в кількох сукупностях з різними середніми арифметичними використовуються показники варіації - коефіцієнт осциляції, лінійний коефіцієнт варіації та коефіцієнт варіації, які показують міру коливань крайніх значень навколо середньої.

Коефіцієнт осциляції:

де V R -значення коефіцієнта осциляції; R- Значення розмаху варіації; х -

Лінійний коефіцієнт варіації.

де Vj -значення лінійного коефіцієнта варіації; I -значення середнього лінійного відхилення; х -середнє значення ознаки для досліджуваної сукупності.

Коефіцієнт варіації:

де V a -значення коефіцієнта варіації; а – значення середнього квадратичного відхилення; х -середнє значення ознаки для досліджуваної сукупності.

Коефіцієнт осциляції - це відсоткове відношення розмаху варіації до середнього значення ознаки, що досліджується, а лінійний коефіцієнт варіації - це відношення середнього лінійного відхилення до середнього значення досліджуваної ознаки, виражене у відсотках. Коефіцієнт варіації є відсоткове відношення середнього квадратичного відхилення до середнього значення досліджуваної ознаки. Як відносна величина, виражена у відсотках, коефіцієнт варіації застосовується для порівняння ступеня варіації різних ознак. З допомогою коефіцієнта варіації оцінюється однорідність статистичної сукупності. Якщо коефіцієнт варіації менше 33%, то досліджувана сукупність є однорідною, а варіація слабкою. Якщо коефіцієнт варіації більше 33%, то досліджувана сукупність є неоднорідною, варіація сильною, а середня величина – нетиповою і її не можна використовувати як узагальнюючий показник цієї сукупності. Крім того, коефіцієнти варіації використовуються для порівняння коливання однієї ознаки в різних сукупностях. Наприклад, з метою оцінки варіації стажу роботи працівників на двох підприємствах. Чим більше значення коефіцієнта, тим варіація ознаки суттєвіша.

На основі розрахованих квартилів є можливість розрахувати також відносний показник квартальної варіації за формулою

де Q 2 і

Міжквартильний розмах визначається за формулою

Квартильне відхилення застосовується замість розмаху варіації, щоб уникнути недоліків, пов'язаних із використанням крайніх значень:

Для нерівноінтервальпих варіаційних рядів розраховується також густина розподілу. Вона визначається як окреме від поділу відповідної частоти або частоти на величину інтервалу. У нерівноінтервальних рядах використовуються абсолютна та відносна щільності розподілу. Абсолютна щільність розподілу – це частота, що припадає на одиницю довжини інтервалу. Відносна густина розподілу - частота, що припадає на одиницю довжини інтервалу.

Все вищезазначене справедливо для розподілу, закон розподілу яких добре описується нормальним законом розподілу або близький до нього.

Метод угруповань дозволяє також виміряти варіацію(мінливість, коливання) ознак. При відносно малому числі одиниць сукупності варіація вимірюється з урахуванням ранжованого низки одиниць, що утворюють сукупність. Ряд називається ранжованим,якщо одиниці розташовані за зростанням (зменшенням) ознаки.

Проте ранжовані ряди досить малопоказові тоді, коли потрібна порівняльна характеристика варіації. Крім того, у багатьох випадках доводиться мати справу зі статистичними сукупностями, що складаються з великої кількості одиниць, які важко уявити у вигляді конкретного ряду. У зв'язку з цим для початкового загального ознайомлення зі статистичними даними і особливо полегшення вивчення варіації ознак досліджувані явища і процеси зазвичай поєднують у групи, а результати угруповання оформляють як групових таблиць.

Якщо груповий таблиці є лише дві графи - групи за виділеним ознакою (варіанти) і чисельності груп (частоти чи частоти), вона називається поряд розподілу.

Ряд розподілу -найпростіший різновид структурного угруповання за однією ознакою, відображена в груповій таблиці з двома графами, в яких містяться варіанти та частоти ознаки. У багатьох випадках з такого структурного угруповання, тобто. із складання рядів розподілу, починається вивчення вихідного статистичного матеріалу.

Структурне угруповання у вигляді ряду розподілу може бути перетворено на справжнє структурне угруповання, якщо виділені групи будуть охарактеризовані не тільки частотами, а й іншими статистичними показниками. Головне призначення рядів розподілу – вивчення варіації ознак. Теорію рядів розподілу детально розробляє математична статистика.

Ряди розподілу ділять на атрибутивні(угруповання за атрибутивними ознаками, наприклад розподіл населення за статтю, національністю, сімейним станом тощо) і варіаційні(Угруповання за кількісними ознаками).

Варіаційний рядявляє собою групову таблицю, яка містить дві графи: угруповання одиниць за однією кількісною ознакою та чисельність одиниць у кожній групі. Інтервали у варіаційному ряду утворюються зазвичай рівні та закриті. Варіаційним рядом є наступне угруповання населення Росії за величиною середньодушових грошових доходів (табл. 3.10).

Таблиця 3.10

Розподіл чисельності населення Росії за величиною середньодушових доходів у 2004-2009 роках.

Групи населення за величиною середньодушових грошових доходів, руб./міс.

Чисельність населення групи, в % до результату

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Понад 25 000,0

Все населення

Варіаційні ряди у свою чергу поділяються на дискретні та інтервальні. Дискретніваріаційні ряди поєднують варіанти дискретних ознак, що змінюються у вузьких межах. Прикладом дискретного варіаційного ряду може бути розподіл російських сімей за кількістю наявних дітей.

Інтервальніваріаційні ряди поєднують варіанти або безперервних ознак або змінюються в широких межах дискретних ознак. Інтервальним є варіаційний ряд розподілу населення Росії за величиною середньодушових грошових доходів.

Дискретні варіаційні ряди практично застосовуються не надто часто. Тим часом складання їх нескладно, оскільки склад груп визначається конкретними варіантами, якими реально мають досліджувані групувальні ознаки.

Найбільш поширені інтервальні варіаційні ряди. При їх складанні виникає тяжке питанняпро кількість груп, а також про величину інтервалів, які мають бути встановлені.

Принципи вирішення цього питання викладено у розділі про методологію побудови статистичних угруповань (див. параграф 3.3).

Варіаційні ряди являють собою засіб згортання або стиснення різноманітної інформації в компактну форму, за ними можна скласти досить чітке судження про характер варіації, вивчити відмінності ознак явищ, що входять досліджувану сукупність. Але найважливіше значення варіаційних рядів у тому, що у основі обчислюються особливі узагальнюючі характеристики варіації (див. главу 7).

Варіаційниминазивають ряди розподілу, побудовані за кількісним ознакою. Значення кількісних ознак в окремих одиниць сукупності непостійні, більш менш різняться між собою.

Варіація- коливання, змінність величини ознаки в одиниць сукупності. Окремі числові значення ознаки, що зустрічаються в сукупності, що вивчається, називають варіантамизначень. Недостатність середньої величини для повної характеристики сукупності змушує доповнювати середні величини показниками, що дозволяють оцінити типовість цих середніх шляхом вимірювання коливання ознаки, що вивчається.

Наявність варіації обумовлено впливом великої кількості чинників формування рівня ознаки. Ці чинники діють з різною силою й у різних напрямах. Для опису міри мінливості ознак використовують показники варіації.

Завдання статистичного вивчення варіації:

  • 1) вивчення характеру та ступеня варіації ознак у окремих одиниць сукупності;
  • 2) визначення ролі окремих чинників чи його груп у варіації тих чи інших ознак сукупності.

У статистиці застосовуються спеціальні методи дослідження варіації, що ґрунтуються на використанні системи показників, здопомогою яких вимірюється варіація.

Дослідження варіацій має важливе значення. Вимірювання варіацій необхідне під час проведення вибіркового спостереження, кореляційному та дисперсійному аналізі тощо. Єрмолаєв О.Ю. Математична статистика для психологів: Підручник [Текст]/О.Ю. Єрмолаєв. – М.: Вид-во Флінта Московського психолого-соціального інституту, 2012. – 335с.

За рівнем варіації можна будувати висновки про однорідності сукупності, про стійкість окремих значень ознак і типовості середньої. На основі розробляються показники тісноти зв'язку між ознаками, показники оцінки точності вибіркового спостереження.

Розрізняють варіацію у просторі та варіацію у часі.

Під варіацією у просторі розуміють коливання значень ознаки в одиниць сукупності, що представляють окремі території. Під варіацією у часі мають на увазі зміну значень ознаки у різні періоди часу.

Для вивчення варіації у лавах розподілу проводять розташування всіх варіантів значень ознаки у зростаючому чи спадному порядку. Цей процес називають ранжуванням низки.

Найпростішими ознаками варіації є мінімум та максимум- найменше та найбільше значенняознаки у сукупності. Число повторень окремих варіантів значень ознак називають частотою повторення (fi). Частоти зручно замінювати частостями – wi. Частина - відносний показник частоти, який може бути виражений у частках одиниці або відсотках та дозволяє зіставляти варіаційні ряди з різним числом спостережень. Виражається формулою:

де Хmax, Хmin - максимальне та мінімальне значення ознаки в сукупності; n – число груп.

Для вимірювання варіації ознаки застосовуються різні абсолютні та відносні показники. До абсолютних показників варіації відносяться розмах варіації, середнє лінійне відхилення, дисперсія, середнє відхилення квадратичне. До відносних показників коливання відносять коефіцієнт осциляції, відносне лінійне відхилення, коефіцієнт варіації.

Приклад знаходження варіаційного ряду

Завдання.За цією вибіркою:

  • а) Знайти варіаційний ряд;
  • б) побудувати функцію розподілу;

№ = 42. Елементи вибірки:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Рішення.

  • а) побудова ранжованого варіаційного ряду:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • б) побудова дискретного варіаційного ряду.

Обчислимо число груп у варіаційному ряді, користуючись формулою Стерджесса:

Приймемо число груп, рівним 7.

Знаючи число груп, розрахуємо величину інтервалу:

Для зручності побудови таблиці приймемо число груп рівним 8 інтервал складе 1.

Рис. 1 Обсяг продажу магазином товару за певний проміжок часу

При обробці великих масивів інформації, що особливо актуально під час проведення сучасних наукових розробок, перед дослідником стоїть серйозне завдання правильного угруповання вихідних даних. Якщо дані мають дискретний характер, то проблем, як ми бачили, не виникає – необхідно просто підрахувати частоту кожної ознаки. Якщо ж досліджувана ознака має безперервнийхарактер (що має більшого поширення практично), то вибір оптимального числа інтервалів угруповання ознаки зовсім на тривіальної завданням.

Для угруповання безперервних випадкових величин весь варіаційний розмах ознаки розбивають на кілька інтервалів до.

Згрупованим інтервальним (безперервним) варіаційним рядом називають ранжовані за значенням ознаки інтервали (), де вказані разом з відповідними частотами () числа спостережень, що потрапили в г-й інтервал, або відносними частотами ():

Інтервали значень ознаки

Частота mi

Гістограмаі кумулята (огива),вже докладно розглянуті нами є чудовим засобом візуалізації даних, що дозволяє отримати первинне уявлення про структуру даних. Такі графіки (рис. 1.15) будуються для безперервних даних так само, як і для дискретних, тільки з урахуванням того, що безперервні дані часто заповнюють область своїх можливих значень, приймаючи будь-які значення.

Рис. 1.15.

Тому стовпці на гістограмі та кумуляті повинні стикатися, не мати ділянок, куди не потрапляють значення ознаки в межах усіх можливих(тобто гістограма і кумулята не повинні мати "дірок" по осі абсцис, в які не потрапляють значення змінної, що вивчається, як на рис. 1.16). Висота стовпчика відповідає частоті-числу спостережень, що потрапили в даний інтервал, або відносної частоті-частці спостережень. Інтервали не повинні перетинатисяі мають, як правило, однакову ширину.

Рис. 1.16.

Гістограма та полігон є апроксимаціями кривої щільності ймовірності (диференціальної функції) f(x)теоретичного розподілу, що розглядається в курсі теорії ймовірностей. Тому їх побудова має таке важливе значення при первинній статистичній обробці кількісних безперервних даних – на їхній вигляд можна будувати висновки про гіпотетичному законі розподілу.

Кумулята - крива накопичених частот (частин) інтервального варіаційного ряду. З кумулятою зіставляється графік інтегральної функції розподілу F(x), що також розглядається в курсі теорії ймовірностей.

В основному поняття гістограми та кумуляти пов'язують саме з безперервними даними та їх інтервальними варіаційними рядами, тому що їх графіки є емпіричними оцінками функції густини ймовірності та функції розподілу відповідно.

Побудова інтервального варіаційного ряду починають із визначення кількості інтервалів k.І це завдання, мабуть, є найскладнішим, важливішим і неоднозначним у досліджуваному питанні.

Число інтервалів не повинно бути занадто малим, тому що при цьому гістограма виходить занадто згладженою ( oversmoothed),втрачає всі особливості мінливості вихідних даних - на рис. 1.17 можна побачити, як самі дані, якими побудовані графіки рис. 1.15 використані для побудови гістограми з меншим числом інтервалів (лівий графік).

У той же час кількість інтервалів не повинна бути занадто великою – інакше ми не зможемо оцінити щільність розподілу даних, що вивчаються по числовій осі: гістограма вийде недозгладжена (undersmoothed),із незаповненими інтервалами, нерівномірна (див. рис. 1.17, правий графік).

Рис. 1.17.

Як же визначити найкраще число інтервалів?

Ще 1926 р. Герберт Стерджес (Herbert Sturges) запропонував формулу обчислення кількості інтервалів, куди необхідно розбити вихідне безліч значень досліджуваного ознаки . Ця формула справді стала надпопулярною – більшість статистичних підручників пропонують саме її, за умовчанням її використовують і безліч статистичних пакетів. Наскільки це виправдано і в усіх випадках – є дуже серйозним питанням.

Отже, на чому ґрунтується формула Стерджеса?

Розглянемо біномний розподіл }

Поділіться з друзями або збережіть для себе:

Завантаження...