Основные аспекты теории информации. Введение в теорию информации
- Теория информации
- раздел прикладной математики, радиотехники (теория обработки сигналов) и информатики, относящийся к измерению количества информации, её свойств и устанавливающий предельные соотношения для систем передачи данных.
- изучает вопросы измерения, хранения и передачи информации.
История теории информации
- Появление – июль-октябрь 1948 – Клод Шеннон “Математическая теория коммуникации”, Bell System Technical Journal.
- Впервые представлена качественная и количественная модель связи в виде статистического процесса.
- Эта модель – основа теории информации.
Понятия
- информационная энтропия и избыточность источника – Теорема Шеннона о кодировании источника
- взаимная информация, пропускная способность зашумлённого канала – Теорема Шеннона для канала с шумами
- теорема Шеннона-Хартли о предельной пропускной способности зашумлённого канала с гауссовским шумом
- количественная мера информации
Предпосылки
- Методы связи неявно использовали идеи теории информации.
- Например, азбука Морзе
- более распространённые буквы имеют более короткие коды.
- Кодирование информации – основная идея, при сжатии данных без потерь.
- Найквист, 1924: “Определённые факторы, влияющие на скорость телеграфа”
- технические аспекты телеграфных сигналов
- дана количественная оценка “сведений” и “линейной скорости”, с которой они могут передаваться:
- \[W=K\log m,\] где \(W\) - скорость передачи данных, \(m\) - количество различных уровней напряжения на выбор на каждом шаге, а \(K\) - постоянная.
- Хартли, 1928: “Передача информации”
- использовано слово “информация” (в техническом смысле)
- чётко указано, что информация является измеримой величиной
- отражает только способность получателя отличать одну последовательность символов от любой другой
- определено количество информации как \(H=\log S^{n},\) где S - количество возможных символов, а n - количество символов в передаче. Естественной единицей информации, таким образом, была десятичная цифра.
- Аналогичные единицы вероятности – Тьюринг, 1940 в рамках криптоанализа Enigma.
- в основе – идея равной априорной вероятности
- на практике – вероятность различная
- неравномерность вероятностей изучается в статистической механике
- Больцманн, 1872: H-теорема
- \[ H=-\sum f_{i}\log f_{i}\] мера широты распространения состояний, доступных для одной частицы в газе таких же частиц, где f – относительное распределение частот каждого возможного состояния.
- эффект столкновений между частицами неизбежно приведёт к увеличению Н-функции от любой начальной конфигурации до достижения равновесия
- H – в основе микроскопического обоснования макроскопической термодинамической энтропии Клаузиуса.
- Гиббс: общая формула статистико-механической энтропии,
- не требует идентичных не взаимодействующих частиц
- основана на вероятностном распределении \(p_i\) для всего микросостояния \(i\) общей системы:
- \[S=-k_{\text{B}}\sum p_{i}\ln p_{i}\]
- Гиббсовская энтропия – в прямом соответствии с классическим термодинамическим определением Клаузиуса.
- Шеннон, по-видимому, не был особенно сведущ в термодинамике
- Джон фон Нейман был
- по слухам, Шеннон беспокоился, что термин “информация” уже чрезмерно загружен
- фон Нейман предложил назвать новую меру энтропией, по двум причинам
- во-первых, у соответствующей функции неопределённости уже есть название в статистической механике,
- во-вторых, что ещё более важно, никто не знает, что такое энтропия на самом деле, поэтому в дебатах Шеннон всегда будет иметь преимущество.
Понятие информации
- Информация
- одно из фундаментальных понятий современной науки, наряду с понятиями материи и энергии.
- С точки зрения человека, информация – это некие сведения, которые могут быть понятными, достоверными, актуальными и т.п., или наоборот.
- Различные формальные подходы к определению информации
- С точки зрения информатики, нас интересуют два определения.
- Информация по Шеннону
- Информация – это снятая неопределённость.
- удобное интуитивное определение
- неопределённость – характеристика нашего незнания о предмете
- в момент броска игрального кубика, мы не знаем, какая из 6 граней выпадет
- когда кубик останавливается на какой-то грани – мы получаем информацию
- не слишком удобно без некоторой количественной меры неопределённости.
- Величина неопределённости
- количество возможных равновероятных исходов события
- игральный кубик имеет неопределённость 6.
- содержательным подход
- интуитивен, но не отвечает на вопрос “сколько информации получено”.
- Количество информации по Колмогорову
- количество информации равно минимально возможному количеству двоичных знаков, необходимых для кодирования этого сообщения, безотносительно к его содержанию.
- любой алфавит может быть закодирован в двоичном
- следовательно определение достаточно универсально
- алфавитный подход
- Основная единица – бит – от binary digit.
- При алфавитном подходе один бит – это количество информации, которое можно закодировать одним двоичным знаком (0 или 1)
- С точки зрения содержательного подхода, один бит – это количество информации, уменьшающее неопределённость вдвое.
Более крупные единицы информации
|
|
байт |
8 бит (обычно) |
килобит |
\(10^3\) бит |
килобайт |
\(10^3\) байт |
мегабит |
\(10^6\) бит |
мегабайт |
\(10^6\) байт |
гигабит |
\(10^9\) бит |
гигабайт |
\(10^9\) байт |
терабит |
\(10^{12}\) бит |
терабайт |
\(10^{12}\) байт |
кибибит |
\(2^{10}\) бит |
кибибайт |
\(2^{10}\) байт |
мебибит |
\(2^{20}\) бит |
мебибайт |
\(2^{20}\) байт |
гибибит |
\(2^{30}\) бит |
гибибайт |
\(2^{30}\) байт |
тебибит |
\(2^{40}\) бит |
тебибайт |
\(2^{40}\) байт |
- В вопросе хранения информации, основным показателем является не количество информации, а информационный объем
- Информационный объем сообщения
- количество двоичных символов, используемых для кодирования сообщения.
- В отличие от количества информации, информационный объем может быть не минимальным. В частности, кодирование текстов в различных кодировках далеко не оптимально.
Задачи, решаемые в рамках теории информации
- изучает количественные закономерности, связанные с получением, передачей, обработкой и хранением информации
- передаваемая информация должна быть соответственным образом “закодирована”, т. е. переведена на язык специальных символов или сигналов
- Сигналами могут быть электрические импульсы, световые или звуковые колебания, механические перемещения и т. д.
- Одна из задач – отыскание наиболее экономных методов кодирования, позволяющих передать информацию с помощью минимального количества символов
- решается как при отсутствии, так и при наличии помех в канале связи.
- Другая типичная задача – определение необходимой для данного источника пропускной способности канала
- Ряд задач относится к определению объёма запоминающих устройств, к способам ввода в них информации и вывода её для непосредственного использования.
- Смежная область – криптография.
- прежде всего нужно уметь измерять количественно объем передаваемой или хранимой информации, пропускную способность каналов связи и их чувствительность к помехам.