Функция информации \(I(p)\), где \(p\) – вероятность события, должна удовлетворять следующим фундаментальным свойствам:
Интуитивно, эти свойства объясняются из содержательного подхода
Пусть \(I(p)\) – дважды непрерывно дифференцируемая функция.
Из (4), \(I(p_1 p_2) = I(p_1) + I(p_2).\)
Дифференцируя по \(p_1\): \(p_2\fd{I(p_1 p_2)}{p_1 p_2} = \fd{I(p_1)}{p_1}\)
Дифференцируя по \(p_2\): \(\fd{I(p_1 p_2)}{p_1 p_2} + p_1 p_2 \frac{\d^2 I(p_1 p_2)}{\d (p_1 p_2)^2} = 0\)
Пусть \(u = p_1 p_2\), тогда
\[\fd{I(u)}{u} + u \frac{\d^2 I(u)}{\d u^2} = 0\]
\[\fd{I(u)}{u} + u \frac{\d^2 I(u)}{\d u^2} = 0\]
\[f'(u) = 0\]
\[f(u) = c_1\]
\[u \fd{I}{u} = c_1\]
\[u \d I = c_1 \d u\]
\[ \d{I(u)} = c_1 \frac{\d u}{u}\]
\[ \int \d{I(u)} = c_1 \int \frac{\d u}{u}\]
\[ I(u) = c_1 \ln(u) + c_2\]
\[ I(u) = c_1 \ln(u) + c_2\]
\[ c_1 \ln(1) = - c_2 \]
\[ c_2 = 0 \]
\[ I(u) = c_1 \ln (u) \]
\[ I(u) = c_1 \ln (u) \]
\(I(x)\), удовлетворяет свойству (1):
Для ансамбля случайных событий \(X=\{x, P(x)\}\) можно вычислить \(H(X)\):
\[H(X) = \mathrm E[I(x)]\]
\[\mathrm E[I(x)] = \lim_{N\to \infty}\frac{1}{N}\sum_{x\in X} n(x) I(P(x))\]
\[\mathrm E[I(x)] = \sum_{x\in X} \lim_{N\to \infty}\frac{n(x)}{N} I(P(x))\]
\[\mathrm E[I(x)] = \sum_{x\in X} \paren{\lim_{N\to \infty}\frac{n(x)}{N}} I(P(x))\]
\[\mathrm E[I(x)] = \sum_{x\in X} P(x) I(P(x))\]
\[\mathrm E[I(x)] = - \sum_{x\in X} P(x) \log(P(x))\]
Для независимых событий, \(P(xy) = P(x)P(y),\) и тогда
\[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x y) \log P(x y)\]
\[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x) P(y) (\log P(x) + \log P(y))\]
\[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x) P(y) \log P(x) \\ - \sum_{x \in X}\sum_{y \in Y} P(x) P(y) \log P(y)\]
\[H(XY) = - \sum_{x \in X} P(x) \log P(x)\sum_{y \in Y} P(y) \\ - \sum_{y \in Y} P(y) \log P(y) \sum_{x \in X} P(x)\]
\[H(XY) = - \sum_{x \in X} P(x) \log P(x)\cancelto{1}{\sum_{y \in Y} P(y)} \\ - \sum_{y \in Y} P(y) \log P(y) \cancelto{1}{\sum_{x \in X} P(x)}\]
\[H(XY) = - \sum_{x \in X} P(x) \log P(x) \\ - \sum_{y \in Y} P(y) \log P(y) \]
\[H(XY) = H(X) + H(Y) \]
Аналогично для более двух событий (тривиально доказывается по индукции).
\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(xy) \log P(xy)\]
\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(xy) \log P(xy)\] \[P(xy) = P(x)P(y|x)\]
\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(x) P(y|x) \log (P(x) P(y | x))\]
\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(x) P(y|x)\log P(x) \\ - \sum_{x\in X} \sum_{y\in Y} P(x) P(y|x) \log P(y | x)\]
\[H(XY) = - \sum_{x\in X} P(x) \log (P(x)) \sum_{y\in Y} P(y | x) \\ - \sum_{x\in X} P(x) \sum_{y\in Y} P(y|x) \log (P(y|x))\]
\[H(XY) = - \sum_{x\in X} P(x) \log (P(x)) \cancelto{1}{\sum_{y\in Y} P(y | x)} \\ - \sum_{x\in X} P(x) \sum_{y\in Y} P(y|x) \log (P(y|x))\]
\[H(XY) = - \sum_{x\in X} P(x) \log (P(x)) \\ - \sum_{x\in X} P(x) \sum_{y\in Y} P(y | x) \log (P(y|x))\]
\[H(XY) = \underset{H(X)}{\underbrace{-\sum_{x\in X} P(x) \log (P(x))}} \\+ \underset{H(Y|X)}{\underbrace{\paren{- \sum_{x\in X} P(x) \sum_{y\in Y} P(y | x) \log (P(y|x))}}}\]
Для независимых \(X\) и \(Y\), \(P(y|x) = P(y)\) и тогда \[H(Y|X) = - \sum_{y\in Y} P(y) \log (P(y)) = H(Y)\]
Эквивалентно через совместную энтропию, если \(X\) и \(Y\) независимы, \[H(Y|X) = H(XY) - H(X) \\= H(X) + H(Y) - H(X) = H(Y)\]