Гистограмма в математической статистике — это функция , приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.
Определение [ ]
Пусть
X
1
,
…
,
X
n
,
…
{\displaystyle X_1,\ldots,X_n,\ldots}
— выборка из некоторого распределения . Определим разбиение числовой прямой
−
∞
<
a
0
<
a
1
<
⋯
<
a
k
−
1
<
a
k
<
∞
{\displaystyle -\infty < a_0<a_1< \cdots <a_{k-1}<a_k<\infty}
. Пусть
n
i
=
∑
j
=
1
n
1
{
X
j
∈
(
a
i
−
1
,
a
i
]
}
,
i
=
1
,
…
,
k
{\displaystyle n_i = \sum\limits_{j=1}^n \mathbf{1}_{\{X_j \in (a_{i-1},a_i]\}},\; \quad i=1,\ldots,k}
— число элементов выборки, попавших в
i
{\displaystyle i}
-й интервал. Тогда кусочно-постоянная функция
h
~
:
R
→
R
{\displaystyle \tilde{h}:\mathbb{R}\to \mathbb{R}}
, имеющая вид:
h
~
(
x
)
=
n
i
,
x
∈
(
a
i
−
1
,
a
i
]
,
i
=
1
,
…
,
k
{\displaystyle \tilde{h}(x) = n_i,\quad x \in (a_{i-1},a_i],\; i=1,\ldots, k}
,
называется гистограммой выборки
X
1
,
…
,
X
n
{\displaystyle X_1,\ldots ,X_n}
. Функция
h
:
R
→
R
{\displaystyle h:\mathbb{R} \to \mathbb{R}}
, задаваемая равенством
h
(
x
)
=
n
i
n
Δ
a
i
x
∈
(
a
i
−
1
,
a
i
]
,
i
=
1
,
…
,
k
{\displaystyle h(x) = \frac{n_i}{n \, \Delta a_i} \quad x \in (a_{i-1},a_i],\; i=1,\ldots, k}
,
где
Δ
a
i
≡
a
i
−
a
i
−
1
,
i
=
1
,
…
,
k
{\displaystyle \Delta a_i \equiv a_i - a_{i-1},\; i=1,\ldots, k}
, — называется нормализованной гистограммой.
Замечание [ ]
Нормализованная гистограмма является плотностью вероятности. В частности,
h
(
x
)
≥
0
,
∀
x
∈
R
{\displaystyle h(x) \ge 0,\quad \forall x \in \mathbb{R}}
.
∫
−
∞
∞
h
(
x
)
d
x
=
1
{\displaystyle \int_{-\infty}^{\infty} h(x)\, dx = 1}
.
Гистограмма абсолютно непрерывного распределения [ ]
Пусть распределение случайных величин
X
i
{\displaystyle X_i}
абсолютно непрерывно , и задаётся плотностью вероятности
f
(
x
)
{\displaystyle f(x)}
. Тогда
∀
x
∈
(
a
i
−
1
,
a
i
]
,
h
(
x
)
Δ
a
i
≡
n
i
n
→
P
(
X
∈
(
a
i
−
1
,
a
i
]
)
≡
∫
a
i
−
1
a
i
f
(
x
)
d
x
,
i
=
1
,
…
,
k
{\displaystyle \forall x \in (a_{i-1},a_i],\quad h(x) \, \Delta a_i \equiv \frac{n_i}{n} \to \mathbb{P}(X \in (a_{i-1},a_i]) \equiv \int\limits_{a_{i-1}}^{a_i} f(x)\, dx,\quad i = 1,\ldots, k }
по вероятности при
n
→
∞
{\displaystyle n \to \infty}
.
Замечание [ ]
Таким образом площадь фигуры под нормализованной гистограмой, ограниченной интервалом
(
a
i
−
1
,
a
i
]
{\displaystyle (a_{i-1},a_i]}
, приближается к вероятности принятия значений внутри этого интервала любой из случайных величин
X
j
{\displaystyle X_j}
. Однако, нормализованная гистограмма не сходится поточечно к теоретической плотности распределения этих случайных величин.
См. также [ ]