5  Deskriptivní statistiky z tabulky dat

Představte si, že jsme provedli průzkum spokojenosti zákazníků s novou službou, kde zákazníci hodnotili spokojenost na škále od 1 (velmi nespokojený) do 10 (velmi spokojený). Zde je souhrn dat z odpovědí 200 náhodně vybraných zákazníků:

Tabulka 5.1: Tabulka četností s kumulativní relativní četností (n=200)
(a)
(b)

Pojďme tato data zobrazit graficky v podobně histogramu, tedy diagramu četností

5.1 Ukazatele polohy: kvantily

Kvantil je hodnota, pod kterou leží určité procento dat. Důležité kvantily mají svá spěcifická označení: medián pro polovinu, kvartily pro čtvrtiny, decily pro desetiny a percentily pro setiny. Proto platí že např medián = druhý kvartil = pátý deci = padesátý percentil.

Min je nejmenší, max největší hodnota v datech.

Pokud budeme hledat kvantily v tabulce, zaměříme se na sloupec Kumulativní (Fᵢ) ve kterém hledáme, kdy poprvé dosáhneme dané hodnoty.

  1. Dolní kvartil (\(Q_1\)): hledáme hodnotu 0,25. V tabulce vidíme, že pro \(x=5\) je \(F(5)=0,175\) menší než \(0.5\), ale \(F(6)=0,300\). Takže \(Q_1 = 6\).
  2. Medián (\(Q_2\)): stručněji: \(F(7)= 0,450, F(8)=0.650\) Protože \(F(7) < 0.5 < F(8)\), je \(Q2=8\).
  3. Horní kvartil (\(Q_3\)): \(F(8)=0.650, F(9)=0.875 \longrightarrow Q_3 = 9\).
  4. \(Q_3\) pomocí interpolací: \(k=1 + (10-1)\cdot 0.75 = 7.75, F(8)<7.75<F(9)\longrightarrow Q_3= 8+(8-7) \cdot 0.75=8.75\)

Různé způsoby výpočtu percentilů mohou vést k různým, ale podobným výsledkům.

5.2 Kvantilové ukazatele variability: jak moc se zákazníci (ne)shodují?

Když známe tyto body, můžeme popsat, jak moc jsou data “rozptýlená”:

  1. Rozpětí (range): rozdíl mezi nejlepším a nejhorším \(max-min\), v našich datech \(range = 10 - 1 = 9\).
  2. Mezikvartilové rozpětí (inter-quartile-range, IQR): rozdíl mezi třemi čtvrtinami a jednou čtvrtinou, \(Q_3-Q_1\), tedy \(IQR = 9 - 6 = 3\).
Poznámka

Range ani min,max se nemusí shodovat z rozsahem škály. Například škála 1-10 může mít v datech min=5 a max=7.

IQR nám říká, v jakém rozmezí se pohybují hodnoty “střední poloviny”, tedy když ignorujeme čtvrtinu nejmenších a čtvrtinu největších hodnot.

5.3 Aritmetický průměr a těžiště dat

Nejznámější hodnotou popisující soubor dat je bezesporu průměr, přesněji artimetický průměr. Ten lze vypočít tak, že sečteme všechny hodnoty a vydělíme je počtem hodnot, \(\bar{x} = \frac{\sum (x_i)}{N}\). Pokud máme data v tabulce, pak tam některé hodnoty máme vícekrát, např u nás

\(\bar{x} = \frac{1+1+2+2+2+3+\dots}{200}\), což můžeme lehce upravit pomocí součinu na

\(\bar{x} = \frac{1\cdot 2+2\cdot 3+3\cdot 5+\dots}{200}\), velký zlomek ještě rozdělit na samostatné zlomky

\(\bar{x} = \frac{1\cdot 2}{200}+\frac{2\cdot 3}{200}+\frac{3\cdot 5}{200}+\dots\) a na závěr ještě upravit na relativní četnosti

\(\bar{x} = 1\cdot \frac{2}{200}+2\cdot \frac{3}{200}+3\cdot\frac{5}{200}+\dots\)

Získali jsme tak vzorec který je uváděný jako vážený průměr, kde každou hodnotu “vážíme” její četností \(n_i\) nebo relativní četností \(p_i\):

\[\bar{x} = \frac{\sum x_i\cdot n_i}{N}=\sum x_i\cdot \frac{n_i}{N}=\sum x_i\cdot p_i\]

Pro naše data pomocí četností \[ \bar{x} =\frac{\sum x_i\cdot n_i}{N} = \frac{1\cdot 2 + 2\cdot 3 + 3\cdot 5 + \dots }{200} = 7.56 \]

nebo pomocí relativních četností \[\bar{x} =\sum x_i\cdot p_i = 1\cdot 0.010 + 2\cdot 0.025 + 3\cdot 0.050 + \dots = 7.56\]

  • Průměr se chová jako těžiště. Ti nespokojení zákazníci na levé straně (známky 1, 2, 3) fungují jako závaží na dlouhém rameni páky. I když je jich málo, svou „vzdáleností“ od středu táhnou průměr doleva.
(a)
(b)
Obrázek 5.1

5.4 variabilita odvozená z průměru

připomeňme, že rozptyl z dat získáme pomocí vzorce

\[\sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n}\]

pokud budeme mt data vážená vektorem relativních četností \(\mathbf{p}\), pak

\[ \sigma^2 = \sum (x_i - \bar{x})^2\cdot p_i \]