Энтропия. Количественная мера информации. Основные свойства энтропии

Энтропия и информация

  • Определим более строго понятия энтропии и информации.
Информационная энтропия
математическое ожидание количества информации в случайном событии \(x \in X\), где \(X = {(x_i, P(x_i))}\) – дискретный ансамбль: \[H(X) = \mathrm E[I(X)]\]

  • Функция информации \(I(p)\), где \(p\) – вероятность события, должна удовлетворять следующим фундаментальным свойствам:

    1. \(I(p)\) монотонно убывает с \(p\)
    2. \(I(p) \ge 0\)
    3. \(I(1) = 0\)
    4. \(I(p_1 p_2) = I(p_1) + I(p_2)\), если \(p_1\) и \(p_2\) независимы.
  • Интуитивно, эти свойства объясняются из содержательного подхода

  1. \(I(p_1 p_2) = I(p_1) + I(p_2)\), если \(p_1\) и \(p_2\) независимы.
  • Пусть \(I(p)\) – дважды непрерывно дифференцируемая функция.

  • Из (4), \(I(p_1 p_2) = I(p_1) + I(p_2).\)

  • Дифференцируя по \(p_1\): \(p_2\fd{I(p_1 p_2)}{p_1 p_2} = \fd{I(p_1)}{p_1}\)

  • Дифференцируя по \(p_2\): \(\fd{I(p_1 p_2)}{p_1 p_2} + p_1 p_2 \frac{\d^2 I(p_1 p_2)}{\d (p_1 p_2)^2} = 0\)

  • Пусть \(u = p_1 p_2\), тогда

    \[\fd{I(u)}{u} + u \frac{\d^2 I(u)}{\d u^2} = 0\]

\[\fd{I(u)}{u} + u \frac{\d^2 I(u)}{\d u^2} = 0\]

  • линейное однородное ОДУ второй степени
  • пусть \(f(u) = u I'(u)\), тогда \(f'(u) = I'(u) + u I''(u)\), то есть,

\[f'(u) = 0\]

\[f(u) = c_1\]

\[u \fd{I}{u} = c_1\]

\[u \d I = c_1 \d u\]

\[ \d{I(u)} = c_1 \frac{\d u}{u}\]

\[ \int \d{I(u)} = c_1 \int \frac{\d u}{u}\]

\[ I(u) = c_1 \ln(u) + c_2\]

\[ I(u) = c_1 \ln(u) + c_2\]

  1. \(I(1) = 0\)
  • граничное условие для определения \(c_2\):

\[ c_1 \ln(1) = - c_2 \]

\[ c_2 = 0 \]

\[ I(u) = c_1 \ln (u) \]

\[ I(u) = c_1 \ln (u) \]

  1. \(I(p) \ge 0\)
  • \(0 \le u \le 1\)
  • следует, что \(c_1 \le 0\). Тогда,
  • \[I(p) = - K \ln(p)\]
  • \(K\) – положительная константа, которая определяет единицы измерения.

  • \[I(p) = - K \ln(p)\]
  • Шеннон положил \(K=\log_2(e)\), так, что окончательно имеем
  • \[I(p) = - \log_2(e)\ln(p) = - \log_2(p).\]
  • основание логарифма определяет единицы измерения
  • \(\log_2\) – биты (или шенноны, в честь Шеннона)
  • \(\log_{10}\) – хартли (в честь Хартли)
  • \(\ln\) – наты
  • Для большинства выкладок основание логарифма значения не имеет, поэтому может быть опущено.
  • \(1 \unit{бит} = \frac{1}{\log_2 10} \unit{хартли} = \frac{1}{\log_2 e} \unit{нат}\)
  • \(1 \unit{бит} = \log_{10} 2 \unit{хартли} = \ln 2 \unit{нат}\)
  • \(1 \unit{хартли} \approx 3.32 \unit{бит}\), \(1 \unit{нат} \approx 1.44 \unit{бит}\)
  • \(I(x)\), удовлетворяет свойству (1):

Для ансамбля случайных событий \(X=\{x, P(x)\}\) можно вычислить \(H(X)\):

\[H(X) = \mathrm E[I(x)]\]

\[\mathrm E[I(x)] = \lim_{N\to \infty}\frac{1}{N}\sum_{x\in X} n(x) I(P(x))\]

\[\mathrm E[I(x)] = \sum_{x\in X} \lim_{N\to \infty}\frac{n(x)}{N} I(P(x))\]

\[\mathrm E[I(x)] = \sum_{x\in X} \paren{\lim_{N\to \infty}\frac{n(x)}{N}} I(P(x))\]

\[\mathrm E[I(x)] = \sum_{x\in X} P(x) I(P(x))\]

\[\mathrm E[I(x)] = - \sum_{x\in X} P(x) \log(P(x))\]

  • ожидаемо получается формула Шеннона для информационной энтропии.

  • энтропия характеризует “неупорядоченность”, то есть степень нашего незнания, о предмете в среднем,
  • количество информации характеризует насколько в результате опыта уменьшилась неопределённость
  • Количественно, энтропия – количество информации, в среднем на одно событие.

Собственная информация

  • Также называется собственным информационным содержанием, или “неожиданностью”
  • \(I(x)\) случайного события \(x\), из дискретного ансамбля \(X = \{x_i, P(x_i)\}\)
  • \[I(x) = -\log{P(x)},\]
  • отражает количество информации, получаемое при измерении значения \(x\).
  • \[H(X) = \sum_{x_i\in X} P(x_i) I(x_i)\]
  • удовлетворяет фундаментальным свойствам функции информации.
  • характеризует степень неожиданности конкретного события.

Совместная энтропия

  • Рассмотрим ансамбли событий \(X\) и \(Y\)
  • совместная энтропия \(H(XY)\) аналогично энтропии единичного случайного события
  • вместо вероятности одного события – совместная вероятность событий \(P(x y)\):
  • \[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x y) \log P(x y)\]
  • легко обобщается на случай более, чем двух событий:
  • \[H(X_1, \ldots, X_n) = \] \[ - \sum_{x_1\in X_1} \ldots \sum_{x_n \in X_n} P(x_1 \ldots x_n) \log P(x_1 \ldots x_n)\]
  • отражает незнание о совокупности случайных событий.

Свойства совместной энтропии

Неотрицательность
\[H(X_1 \ldots X_n) \ge 0\]
Не меньше индивидуальных энтропий
\[H(X_1 \ldots X_n) \ge \underset{1\le i\le n}\max\{H(X_i)\}\]
Не больше суммы индивидуальных энтропий
\[H(X_1 \ldots X_n) \le \sum_{i=1}^n\max\{H(X_i)\}\]
Симметрия к перестановкам
\[H(X_1 X_2 \ldots X_n) = H(X_2 X_1 \ldots X_n)\]

Для независимых событий, \(P(xy) = P(x)P(y),\) и тогда

\[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x y) \log P(x y)\]

\[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x) P(y) (\log P(x) + \log P(y))\]

\[H(XY) = - \sum_{x \in X}\sum_{y \in Y} P(x) P(y) \log P(x) \\ - \sum_{x \in X}\sum_{y \in Y} P(x) P(y) \log P(y)\]

\[H(XY) = - \sum_{x \in X} P(x) \log P(x)\sum_{y \in Y} P(y) \\ - \sum_{y \in Y} P(y) \log P(y) \sum_{x \in X} P(x)\]

\[H(XY) = - \sum_{x \in X} P(x) \log P(x)\cancelto{1}{\sum_{y \in Y} P(y)} \\ - \sum_{y \in Y} P(y) \log P(y) \cancelto{1}{\sum_{x \in X} P(x)}\]

\[H(XY) = - \sum_{x \in X} P(x) \log P(x) \\ - \sum_{y \in Y} P(y) \log P(y) \]

\[H(XY) = H(X) + H(Y) \]

Аналогично для более двух событий (тривиально доказывается по индукции).

Условная энтропия

  • Рассмотрим совместную энтропию, если известно \(P(y | x)\)

\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(xy) \log P(xy)\]

\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(xy) \log P(xy)\] \[P(xy) = P(x)P(y|x)\]

\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(x) P(y|x) \log (P(x) P(y | x))\]

\[H(XY) = - \sum_{x\in X} \sum_{y\in Y} P(x) P(y|x)\log P(x) \\ - \sum_{x\in X} \sum_{y\in Y} P(x) P(y|x) \log P(y | x)\]

\[H(XY) = - \sum_{x\in X} P(x) \log (P(x)) \sum_{y\in Y} P(y | x) \\ - \sum_{x\in X} P(x) \sum_{y\in Y} P(y|x) \log (P(y|x))\]

\[H(XY) = - \sum_{x\in X} P(x) \log (P(x)) \cancelto{1}{\sum_{y\in Y} P(y | x)} \\ - \sum_{x\in X} P(x) \sum_{y\in Y} P(y|x) \log (P(y|x))\]

\[H(XY) = - \sum_{x\in X} P(x) \log (P(x)) \\ - \sum_{x\in X} P(x) \sum_{y\in Y} P(y | x) \log (P(y|x))\]

\[H(XY) = \underset{H(X)}{\underbrace{-\sum_{x\in X} P(x) \log (P(x))}} \\+ \underset{H(Y|X)}{\underbrace{\paren{- \sum_{x\in X} P(x) \sum_{y\in Y} P(y | x) \log (P(y|x))}}}\]

  • \[H(Y|X)=- \sum_{x\in X} P(x) \sum_{y\in Y} P(y | x) \log (P(y|x))\]
  • условная энтропия \(Y\) при условии \(X\)
  • определяется через совместную как \[H(Y|X) = H(XY) - H(X).\]
  • Выделяют частную условную энтропию \[H(Y|x) = - \sum_{y\in Y} P(y | x) \log (P(y|x))\]
  • полная через частную: \[H(Y|X) = \sum_{x\in X} P(x) H(Y|x)\]
  • \(H(Y|X)\) отражает количество информации, содержащееся (в среднем) в событии \(y \in Y\), при условии, что событие \(x \in X\) уже произошло.
  • Иногда называют условной информацией и обозначают \(I(Y|X)\).

Свойства условной энтропии

  • \(H(Y|X)=0\) тогда и только тогда, когда исход \(X\) полностью предопределяет исход \(Y\).
Правило цепочки
\[H(X Y) = H(Y | X) + H(X) = H(X|Y)+H(Y)\]
\[H(X_1\ldots X_n) = \sum_{i=1}^n H(X_i | X_1\ldots X_{i-1})\]
Правило Байеса
\[H(Y|X) = H(X|Y) - H(X) + H(Y)\]
Не превосходит безусловной энтропии
\[H(Y|X) \le H(Y)\]
  • Для независимых \(X\) и \(Y\), \(P(y|x) = P(y)\) и тогда \[H(Y|X) = - \sum_{y\in Y} P(y) \log (P(y)) = H(Y)\]

    Эквивалентно через совместную энтропию, если \(X\) и \(Y\) независимы, \[H(Y|X) = H(XY) - H(X) \\= H(X) + H(Y) - H(X) = H(Y)\]

Относительная энтропия

  • расстояние Кульбака-Лейблера
  • мера информационного отличия одного распределения от другого
  • Для дискретных вероятностей \(P\) и \(Q\) определяется как \[D_{KL}(P||Q) = \sum_{x\in X} P(x) \log\left(\frac{P(x)}{Q(x)}\right)\]
  • В теории кодирования, \(D_{KL}(P||Q)\) показывает ожидаемое число дополнительных бит, необходимых для кодирования значений, распределённых как \(P\) используя код, оптимизированный для распределения \(Q\).
  • неотрицательна (неравенство Гиббса)

Взаимная информация

  • \(I(X;Y)\)
    • \(= \sum_{x\in X}\sum_{y\in Y} P(xy) \log\frac{P(xy)}{P(x)P(y)}\)
    • \(= \sum_{y\in Y} P(y) \sum_{x\in X}P(x|y) \log\frac{P(x|y)}{P(x)}\)
    • \(= \sum_{x\in X}P(x) \sum_{y\in Y} P(y|x) \log\frac{P(y|x)}{P(y)}\)
  • отражает количество информации, которое теряется в результате связи \(Y\) и \(X\), по сравнению с независимыми ансамблями
  • \(I(X;Y) = H(X) + H(Y) - H(XY)\) \(= H(X) - H(X|Y)\) \(= H(Y) - H(Y|X)\)
  • \(I(X;Y)\) характеризует степень взаимосвязи \(X\) и \(Y\)
  • она максимальна при полной взаимосвязи
  • равна нулю при отсутствии таковой
  • Выделяют взаимную информацию событий
  • \(I(x;y) = \log \frac{P(xy)}{P(x)P(y)}\) \(= \log \frac{P(x|y)}{P(x)}\) \(= \log \frac{P(y|x)}{P(y)}\)
  • взаимную информацию ансамбля и события
  • \(I(X;y) = \mathrm E_x[I(x;y)]\) \(= \sum_{x\in X} P(x|y) I(x;y)\)
  • Взаимная информация ансамблей тогда: \(I(X;Y) = \mathrm E[I(X;y)]\) \(= \sum_{y\in Y} P(y) I(X;y)\)

Свойства взаимной информации

Неотрицательность
Поскольку \(H(XY) \le H(X)+H(Y)\), \[I(X;Y)\ge 0\]
Симметрия
\[I(X;Y) = I(Y;X)\]
Не превосходит энтропию аргументов
Поскольку \(H(XY) \ge \max[H(X), H(Y)]\) \[I(X;Y) \le \min[H(X), H(Y)]\]
  • Взаимная информация ансамбля с самим собой даёт информационную энтропию ансамбля \[I(X;X) = H(X)\]
  • Если ансамбли полностью зависимы, \(H(X) = H(Y)\), \(H(Y|X)=H(X|Y)=0\), то \[I(X;Y) = H(X) = H(Y)\]
  • Если ансамбли полностью независимы, \(H(XY)= H(X)+H(Y)\), \[I(X;Y) = 0\]

Информационная энтропия в теории связи

  • специфический смысл в приложении к теории связи.
  • случайные величины – сообщение и сигнал
  • Совместная энтропия системы связи \[H(MR) = H(M|R)+H(R) = H(R|M)+H(M).\]
  • \(H(M)\) – априорная энтропия источника информации,
  • \(H(R)\) – энтропия приёмника,
  • \(H(R|M)\) – энтропия канала,
  • \(H(M|R)\) – апостериорная энтропия источника.
  • Взаимная информация приёмника и источника \(I(MR) = H(M) + H(R) - H(MR)\) \(= H(M) - H(M|R)\) \(= H(R) - H(R|M)\)
  • В идеальном канале, R полностью определяется M, \(H(R|M) = 0\), и \(H(MR) = H(M) = H(R),\) \(I(MR) = H(R) = H(M).\)
  • В случае 100% потерь, R и M независимы, \(H(R|M) = H(R)\), и \(H(MR) = H(M) + H(R),\) \(I(MR) = 0.\)
  • Совместная энтропия \(H(MR) = H(R|M) + H(M)\) отражает суммарную энтропию источника и канала.
  • \(I(MR) = H(M) - H(M|R) = H(R) - H(R|M)\) отражает количество информации, получаемое в результате передачи сообщения через канал.
  • Условная энтропия \(H(M|R) = H(M) - I(MR)\) соответствует потерям информации в канале.
  • Условная энтропия \(H(R|M) = H(R) - I(MR)\) соответствует энтропии, вносимой шумом в канале.