Энтропия непрерывных источников

  • Ранее рассмотрены дискретные случайные процессы
  • Для перехода к непрерывным, по аналогии:
  • \[ h[x] = E[-\ln(\rho(x))] = - \int_\mathbb X \rho(x) \ln(\rho(x)) \d x,\]
  • \(\rho(x)\) – плотность вероятности непрерывной случайной переменной x.
  • формула непрерывной (или дифференциальной) энтропии
  • нельзя считать полностью аналогичным дискретному случаю
  • дифференциальная энтропия не является предельным случаем дискретной
  • покажем это
  • Смоделируем дискретную переменную в терминах непрерывной
  • разделим область определения функции на интервалы ширины \(\Delta\)
  • по первой теореме о среднем, для любой функции \(f(x)\),
  • \[\exists x_i \in [i\Delta, (i+1)\Delta] : f(x_i)\Delta = \int_{i\Delta}^{(i+1)\Delta}f(x) \d x,\]
  • \[\Rightarrow \int_\mathbb X f(x) \d x = \sum_{i\in \mathcal I_x} f(x_i)\Delta\]

  • Рассмотрим дифференциальную энтропию:
  • \[h[x] = -\int_\mathbb X \rho(x) \ln(\rho(x)) \d x\]
  • \[h[x] = -\sum_{i\in \mathcal I_x} \rho(x_i) \ln(\rho(x_i))\Delta\]
  • для дискретной энтропии
  • \[H[x] = -\sum_{i\in \mathcal I_x} \rho(x_i)\Delta \ln(\rho(x_i)\Delta)\]

  • \[h[x] = -\sum_{i\in \mathcal I_x} \rho(x_i) \ln(\rho(x_i))\Delta\]
  • \[H[x] = -\sum_{i\in \mathcal I_x} \rho(x_i)\Delta \ln(\rho(x_i)\Delta)\]
  • Разница:
  • \[H[x] - h[x] = -\ln(\Delta)\sum_{i\in \mathcal I_x} \rho(x_i)\Delta \]

  • \[H[x] - h[x] = -\ln(\Delta)\sum_{i\in \mathcal I_x} \rho(x_i)\Delta \]
  • При \(\Delta\to0,\)
  • \[\lim_{\Delta\to0}\sum_{i\in \mathcal I_x} \rho(x_i)\Delta = \int_\mathbb X \rho(x) \d x = 1,\]
  • \[\Rightarrow \lim_{\Delta\to0}(H[x]-h[x]) = - \lim_{\Delta\to0}\ln\Delta = \infty,\]
  • В общем случае дифференциальная энтропия – плохая мера информационного содержания
  • может становиться отрицательной, не инвариантна к замене переменных, при размерной переменной \(x\) просто размерно некорректна.
  • Более корректное построение предложено физиком Эдвином Томпсоном Джейнсом в 1968 г.

  • Рассмотрим дискретное распределение переменной \(x\), имеющем \(N\) точек \(\{x_i\}\),
  • распределение этих точек при \(N\to\infty\) описывается функцией плотности вероятности \(m(x)\), такой, что
  • \[\lim_{N\to\infty} \frac{1}{N} \mathcal N(a,b) = \int_a^b m(x) \d x,\]
  • \(\mathcal N(a,b)\) – количество точек в интервале \([a, b)\).
  • Тогда, для любых двух соседних точек \(x_i\) и \(x_{i+1}\),
  • \[\lim_{N\to\infty} \frac{1}{N} \mathcal N(x_i,x_{i+1}) = \int_{x_i}^{x_{i+1}} m(x) \d x,\]

  • \[\lim_{N\to\infty} \frac{1}{N} \mathcal N(x_i,x_{i+1}) = \int_{x_i}^{x_{i+1}} m(x) \d x,\]
  • \(\mathcal N(x_i,x_{i+1}) = 1\),
  • по первой теореме о среднем,
  • \[\lim_{N\to\infty} \frac{1}{N} = m(x_i) (x_{i+1}-x_i) ,\]
  • \[(x_{i+1}-x_i) = \lim_{N\to\infty} \frac{1}{N m(x_i)},\]

  • \[(x_{i+1}-x_i) = \lim_{N\to\infty} \frac{1}{N m(x_i)},\]
  • учитывая формулу дискретной энтропии,
  • \[H_N[x] = - \sum_{i=1}^N P(x_i) \log(P(x_i)),\]
  • итого, \(\lim_{N\to\infty} H_N[x]\)

\[= - \lim_{N\to\infty}\sum_{i=1}^N \rho(x_i)(x_{i+1}-x_i) \log(\rho(x_i)(x_{i+1}-x_i))\]

\[= - \lim_{N\to\infty} \int_\mathbf X \rho(x) \log\left(\frac{\rho(x)}{N m(x)}\right) \d x\]

\[ = - \int_\mathbf X \rho(x) \log\left(\frac{\rho(x)}{m(x)}\right) \d x + \lim_{N\to\infty}\log N\]

\[\lim_{N\to\infty} H_N[x] = - \int_\mathbf X \rho(x) \log\left(\frac{\rho(x)}{m(x)}\right) \d x + \lim_{N\to\infty}\log N\]

  • \(\lim_{N\to\infty}\log N \to \infty\)
  • при переходе к непрерывному распределению, алфавит случайной величины имеет бесконечную мощность
  • следовательно, энтропия любого символа бесконечна
  • Этот член однако постоянный.
  • Первый же член суммы конечен
  • позволяет осмысленно анализировать непрерывные распределения.

\[H_\infty[x] = - \int_\mathbf X \rho(x) \log\left(\frac{\rho(x)}{m(x)}\right) \d x + \lim_{N\to\infty}\log N\]

  • \(m(x)\) по определению – функция равномерного распределения (точек, не вероятности!)
  • первое слагаемое – количество информации, в том, что величина \(x\) распределена в соответствии с \(\rho(x)\), а не равномерно (т.е. с плотностью \(m(x)\)).

\[H_\infty[x] = - \int_\mathbf X \rho(x) \log\left(\frac{\rho(x)}{m(x)}\right) \d x + \lim_{N\to\infty}\log N\]

  • Вообще, это расстояние Кульбака-Лейблера (со знаком “минус”)
  • бесконечная часть не несёт смысловой нагрузки, часто опускают
  • расстояние Кульбака-Лейблера неотрицательно, соответственно при опущенной бесконечной части, \(H_\infty[x]\le 0\).

Максимальная энтропия непрерывного процесса

  • вопрос оптимизации связи
  • Как при прочих равных, достичь максимальной энтропии сингала?
  • Рассмотрим относительную энтропию двух функций плотности вероятности \(f\) и \(g\) с одинаковой дисперсией:
  • \[D_{KL}(f || g) = \int_{-\infty}^{\infty} f(x) \log\left(\frac{f(x)}{g(x)}\right) \d x\]

\[ = \int_{-\infty}^{\infty} f(x) (\log(f(x))-\log({g(x)})) \d x\]

\[ = \int_{-\infty}^{\infty} f(x) \log(f(x))-\int_{-\infty}^{\infty} f(x)\log({g(x)}) \d x\]

\[ = -h(f)-\int_{-\infty}^{\infty} f(x)\log({g(x)}) \d x\]

\[D_{KL}(f || g) = -h(f)-\int_{-\infty}^{\infty} f(x)\log({g(x)}) \d x\]

  • Пусть \(g(x)\) – нормальное (Гауссово) распределение.
  • Тогда, \(\int_{-\infty}^{\infty}f(x)\log(g(x))\d x\)

\[ = \int_{-\infty}^{\infty}f(x)\log\left(\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\right)\d x\]

\[ = \int_{-\infty}^{\infty}f(x)\log\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right) \\ +\int_{-\infty}^{\infty}f(x)\log\left(\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\right)\d x\]

\[ = -\log\left(\sqrt{2\pi\sigma^2}\right) \int_{-\infty}^{\infty}f(x)\d x \\ - \frac{\log(e)}{2\sigma^2}\int_{-\infty}^{\infty}f(x){(x-\mu)^2}\d x\]

\[ = -\log\left(\sqrt{2\pi\sigma^2}\right) \cancelto{1}{\int_{-\infty}^{\infty}f(x)\d x} \\ - \frac{\log(e)}{2\sigma^2}\cancelto{\sigma^2}{\int_{-\infty}^{\infty}f(x){(x-\mu)^2}\d x}\]

\[ = -\log\left(\sqrt{2\pi\sigma^2}\right) - \log(e)\frac{\sigma^2}{2\sigma^2}\]

\[= -\frac{1}{2}\log(2\pi\sigma^2 e)\]

\[D_{KL}(f || g) = - h(f) + \frac{1}{2}\log(2\pi\sigma^2 e)\]

  • С другой стороны, \(h(g)\)

\[ = -\int_{-\infty}^{\infty}g(x)\log(g(x))\d x \]

\[ =-\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \\ \log\left(\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\right)\d x \]

\[ =\log(\sqrt{2\pi\sigma^2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \d x\\ +\log(e)\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\frac{(x-\mu)^2}{2\sigma^2}\d x \]

\[ =\log(\sqrt{2\pi\sigma^2})\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \d x\\ +\frac{\log(e)}{2\sigma^2}\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)(x-\mu)^2\d x \]

\[ =\log(\sqrt{2\pi\sigma^2})\cancelto{1}{\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \d x}\\ +\frac{\log(e)}{2\sigma^2}\cancelto{\sigma^2}{\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)(x-\mu)^2\d x}\]

\[ =\log(\sqrt{2\pi\sigma^2}) +\log(e)\frac{\sigma^2}{2\sigma^2} \]

\[ =\frac{1}{2}\log(2\pi\sigma^2 e) \]

\[D_{KL}(f || g) = - h(f) + h(g)\]

  • Из неравенства Гиббса, \(D_{KL}(f || g)\ge 0\).

\[h(g)-h(f) \ge 0,\]

\[h(g) \ge h(f),\]

  • верно для любых \(f\),
  • энтропия максимальна, если случайная величина распределена в соответствии с распределением Гаусса.