#

2-Тема. Тема: Информация, ее виды, свойства и единицы измерения.

План занятия:

  1. Понятия информации. 
  2. Формы предоставления информации: непрерывная и дискретная информация. 
  3. Особенности информации. Информационные процессы. 
  4. Синтактические, семантические, прагматические измерения информации.
  5. Единицы измерения информации.

 

Понятия информации.

Термин "информация"  происходит от латинского слова  "informatio",  что означает  сведения,  разъяснения,  изложение. Несмотря на широкое распространение этого термина, понятие информации является одним из самых дискуссионных в науке. В настоящее время наука пытается найти общие свойства и закономерности, присущие многогранному понятию информация, но пока это понятие во многом остается интуитивным и получает различные смысловые наполнения в различных отраслях человеческой деятельности:

в обиходе информацией называют любые данные или сведения, которые кого-либо интересуют. Например, сообщение о каких-либо событиях, о чьей-либо деятельности и т.п.   "Информировать" в этом смысле означает   "сообщить нечто, неизвестное раньше";

в технике под информацией понимают сообщения, передаваемые в форме знаков или сигналов;

в кибернетике под информацией понимает ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы (Н. Винер).

Клод Шеннон, американский учёный, заложивший основы теории информации — науки, изучающей процессы, связанные с передачей, приёмом, преобразованием и хранением информации, — рассматривает информацию как снятую неопределенность наших знаний о чем-то.

Приведем еще несколько определений:

Информация — это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (Н.В. Макарова);

Информация — это отрицание энтропии (Леон Бриллюэн);

Информация — это мера сложности структур (Моль);

Информация — это отраженное разнообразие (Урсул);

Информация — это содержание процесса отражения (Тузов);

Информация — это вероятность выбора (Яглом).

Современное научное представление об информации очень точно сформулировал   Норберт Винер, "отец" кибернетики. А именно:

Информация — это обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспособления к нему наших чувств.

Люди обмениваются информацией в форме сообщений. Сообщение — это форма представления информации в виде речи, текстов, жестов, взглядов, изображений, цифровых данных, графиков, таблиц и т.п.

Одно и то же информационное сообщение (статья в газете, объявление, письмо, телеграмма, справка, рассказ, чертёж, радиопередача и т.п.) может содержать разное количество информации для разных людей — в зависимости от их предшествующих знаний, от уровня понимания этого сообщения и интереса к нему.

Так, сообщение, составленное на японском языке, не несёт никакой новой информации человеку, не знающему этого языка, но может быть высокоинформативным для человека, владеющего японским. Никакой новой информации не содержит и сообщение, изложенное на знакомом языке, если его содержание непонятно или уже известно.

Информация есть характеристика не сообщения, а соотношения между сообщением и его потребителем. Без наличия потребителя, хотя бы потенциального, говорить об информации бессмысленно.

В случаях, когда говорят об автоматизированной работе с информацией посредством каких-либо технических устройств, обычно в первую очередь интересуются не содержанием сообщения, а тем, сколько символов это сообщение содержит.

Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объём сообщения.


 Формы предоставления информации: непрерывная и дискретная информация.

Информация может существовать в виде:

текстов, рисунков, чертежей, фотографий;

световых или звуковых сигналов;

радиоволн;

электрических и нервных импульсов;

магнитных записей;

жестов и мимики;

запахов и вкусовых ощущений;

хромосом, посредством которых передаются по наследству признаки и свойства организмов и т.д.

Предметы, процессы, явления материального или нематериального свойства, рассматриваемые с точки зрения их информационных свойств, называются информационными объектами.

Различают две формы представления информации - непрерывную (аналоговую) и прерывистую (цифровую, дискретную). Непрерывная форма характеризует процесс, который не имеет перерывов и может изменяться в любой момент времени и теоретически на любую величину (например, речь человека). Цифровой сигнал может изменяться лишь в определенные моменты времени и принимать лишь заранее обусловленные значения. Для преобразования аналогового сигнала в цифровой сигнал требуется провести дискретизацию во времени и квантование по уровню.

Дискретизация - это замена непрерывного сигнала последовательностью отдельных во времени отсчетов этого сигнала.

Для преобразования аналогового сигнала в цифровой используется специальный конвертор, называемый аналого-цифровой преобразователь (АЦП). Сигнал на выходе АЦП представляет собой последовательность двоичных чисел, которая может быть записана на лазерный диск или обработана компьютером. Обратная конверсия осуществляется с помощью цифро-аналогового преобразователя (ЦАП). Качество аналого-цифрового преобразования характеризуется разрешением. Разрешение - это количество уровней квантования, используемых для замены непрерывного сигнала цифровым. Еще один показатель качества такого преобразования - частота дискретизации - количество преобразований, производимое в секунду. Этот показатель измеряют килогерцами.

Особенности информации. Информационные процессы.

Существование области и предмета информатики немыслимо без ее основного ресурса – информации. Термин информация происходит от латинского слова informatio, что означает осведомление, разъяснение, изложение. Существование множества определений информации обусловлено сложностью, специфичностью и многообразием подходов к толкованию сущности этого понятия. Существуют три наиболее распространенные концепции информации, каждая из которых по-своему объясняет ее сущность.

Первая концепция (концепция К. Шеннона), отражая количественно-информационный подход, определяет информацию как меру неопределенности (энтропию) события. Количество информации в том или ином случае зависит от вероятности его получения: чем более вероятным является сообщение, тем меньше информации содержится в нем. Этот подход, хоть и не учитывает смысловую сторону информации, оказался весьма полезным в технике связи и вычислительной технике и послужил основой для измерения информации и оптимального кодирования сообщений. Кроме того, он представляется удобным для иллюстрации такого важного свойства информации, как новизна. 

При таком понимании информация – это снятая неопределенность, или результат выбора из набора возможных альтернатив. 

Вторая концепция рассматривает информацию как свойство материи. Ее появление связано с развитием кибернетики и основано на утверждении, что информацию содержат любые сообщения, воспринимаемые человеком или приборами. Наиболее ярко и образно эта концепция информации выражена академиком В.М. Глушковым. Он писал, что «информацию несут не только испещренные буквами листы книги или человеческая речь, но и солнечный свет, складки горного хребта, шум водопада, шелест травы». 

То есть, информация как свойство материи создает представление о ее природе и структуре, упорядоченности и разнообразии. 

Третья концепция основана на логико-семантическом подходе, при котором информация трактуется как знание, причем не любое знание, а та его часть, которая используется для ориентировки, для активного действия, для управления и самоуправления.

Рассмотренные подходы в определенной мере дополняют друг друга, освещают различные стороны сущности понятия информации и облегчают тем самым систематизацию ее основных свойств. Обобщив данные подходы, можно дать следующее определение информации: 

Информация - это сведения, снимающие неопределенность об окружающем мире, которые являются объектом хранения, преобразования, передачи и использования. Сведения - это знания выраженные в сигналах, сообщениях, известиях, уведомлениях и т.д. 

Сигналы ® Данные ® Методы ® Информация

С позиции материалистической философии информация есть отражение реального мира.

Все объекты в окружающем нас мире являются материальными. Материя существует в двух формах: в виде материальных тел и в виде энергетических полей. При непрерывном взаимодействии полей и тел происходит энергетический обмен. 

Все виды энергообмена сопровождаются появлением сигналов. Сигналы можно регистрировать. Результат регистрации сигналов информатика рассматривает как данные.

Данные несут в себе информацию о событиях, происшедших в материальном мире. Это тоже объекты материальной природы. Данные всегда объективны. Данные всегда можно воспроизвести каким-либо образом, так как есть средства их зарегистрировать.

Для того чтобы данные стали информацией, обычно требуется не один, а множество взаимосвязанных методов. 

Например, обычный текст, напечатанный темными буквами на светлом фоне.

1.       Зрение. Естественный метод присущий большинству людей.

2.       Достаточное освещение. Физический метод, основанный на использовании естественного или искусственного света.

3.       Знание азбуки языка, на котором написан текст (систему кодирования звуков).

4.       Знание языка, на котором написан текст.

5.       Понимание терминов и понятий, использованных в тексте.

Для определения информации очень важно понять, что информация образуется из данных, но ее содержательная часть зависит не только от того, какие сигналы были зарегистрированы при образовании данных, но и от того, какими методами данные воспроизводятся.

Наблюдая за состязаниями бегунов, с помощью секундомера можно засечь начальное и конечное положение стрелки прибора за время забега. Это регистрация данных. Чтобы получить информацию о времени забега, необходимо знать цену деления шкалы секундомера, и то, как ее умножить на величину перемещения, то есть применить некоторый метод. 

Прослушав передачу на незнакомом языке, можно получить данные, но не информацию, так как язык неизвестен. Можно записать эти данные на лист бумаги или магнитную ленту. Изменится форма представления данных, произойдет новая регистрация, соответственно образуются новые данные. Извлечь информацию из них можно, попробовав подобрать адекватный метод для новых данных, например, взяв соответствующий словарь иностранных слов.

Информация динамична, она существуют непродолжительное время – столько, сколько продолжается взаимодействие данных и методов во время ее создания, потребления или преобразования. Как только взаимодействие завершается, опять в наличии данные, но уже представленные в другой форме.

Пока идет лекция студенты, используя наблюдение и прослушивание, получают информацию от преподавателя. Лекция закончилась, информация сохраняется в виде данных в коре головного мозга. На экзамене у того же преподавателя идет совершенно другой информационный процесс, студент рассказывает содержание темы, но при этом преподаватель получает совершенно другие данные и применяет к ним совершенно иные методы. В результате он получает иную информацию, которая преобразуется в данные, хранящиеся в зачетке и в ведомости на экзамен.

Подобная схема действует и в технике. Например, информационный процесс на телевидении:

Аппаратные методы: видеокамера – передающее устройство – антенна-предатчик – спутник – антенна-приемник – телевизор.

Естественные методы: зрение – головной мозг.

Преобразование данных: световой поток – заряды - электромагнитные сигналы - радиоволны – световой поток – информация – данные.

На всех этапах информационного процесса идет непрерывная регистрация сигналов различной физической природы и их взаимодействие с самыми разнообразными методами.

Информационный процесс – это всегда цикл образования информации из данных и немедленного их сохранения в виде новых данных. Информация существует непродолжительное время, но информационный процесс длится столько, сколько существуют носители данных, представляющие информацию.

Информацию можно:

создавать;

передавать;

воспринимать;

иcпользовать;

запоминать;

принимать;

копировать;

формализовать;

распространять;

преобразовывать;

комбинировать;

обрабатывать;

делить на части;

упрощать;

собирать;

хранить;

искать;

измерять;

разрушать;

и др.

Все эти процессы, связанные с определенными операциями над информацией, называются информационными процессами.

 

Синтактические, семантические, прагматические измерения информации.

 

Понимая информацию как один из стратегических ресурсов общества, необходимо уметь его оценивать, как с качественной, так и с количественной стороны. Здесь возникают проблемы из-за нематериальной природы этого ресурса и субъективного восприятия конкретной информации каждым конкретным человеком.

Для измерения информации вводятся два параметра: количество информации I и объем данных Vд. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой меры количества информации и объема данных.

Синтаксическая мера информации. Эта мера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. 

Объем данных Vд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения – бит (bit – binary digit) или более укрупненная единица байт, равная 8 бит. Сообщение, записанное двоичным кодом 10111011, имеет объем данных 8 бит или 1 байт.

в десятичной системе счисления единица измерения – дит (десятичный разряд). Сообщение, записанное числом 275903 имеет объем данных 6 дит.

Количество информации I на синтаксическом уровне определяется с помощью понятия неопределенности состояния (энтропии) системы.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы. После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала Hβ(α). Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как Iβ(α) = H(α) - Hβ(α), т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность Hβ(α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Iβ(α) = H(α). Иными словами, энтропия системы H(α) может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна 


где ** – вероятность того, что система находится в i-состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi=1/N, ее энтропия определяется соотношением.


Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения 

          N = mn, 

где N – число всевозможных отображаемых состояний;

          m – основание системы счисления (разнообразие символов, применяемых в алфавите);

          n – число разрядов (символов) в сообщении.

Пример. По каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N = mn, то при равно вероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I = log N = n *** m – формула Хартли.

Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = Vд, полученных по каналу связи. Для не равновероятностных состояний системы всегда I < Vд = n.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.


С увеличением Y уменьшаются объемы работы по преобразованию информации, для этого разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используют понятие тезаурус пользователя.

Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. 

График зависимости количества семантической информации, воспринимаемой потребителем, от его тезауруса Ic = f(Sp)

Два предельных случая, когда количество семантической информации Ic равно 0:

при Sp » 0 пользователь не воспринимает, не понимает поступающую информацию;

при Sp ® ¥ пользователь все знает, и поступающая информация ему не нужна.

Максимальное количество Ic  потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующее в тезаурусе) сведения. Следовательно новых знаний, получаемых пользователем, является величиной относительной. Одно и то же   сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного. При оценке содержательного аспекта информации необходимо стремиться к согласованию величин S и Sp. 

Относительной мерой количества семантической информации может служить коэффициент содержательности C, который определяется как отношение количества семантической информации к ее объему: 

Прагматическая мера информации. Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели, Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Пример. В экономической системе ценность информации можно определить приростом экономического эффекта ее функционирования, достигнутым благодаря использованию этой информации для управления системой.

Мера информации

Единицы измерения

Примеры 
 (для компьютерной области)

Синтаксическая:

шенноновский подход

 

компьютерный подход

Степень уменьшения неопределенности

 

Единицы представления информации

 

Вероятность события

 

Бит, байт, Кбайт и т.д.

Семантическая

Тезаурус

 

Экономические показатели

ППП, ПК, компьютерные сети и т.д.

Рентабельность, производительность, коэффициент амортизации и т.д.

Прагматическая

Ценность использования

Емкость памяти, производительность компьютера, скорость передачи данных и т.д.

Денежное выражение

Время обработки информации и принятия решений

 

Единицы измерения информации.

 

В компьютерной технике используется двоичная система счисления. Ее выбор определяется реализацией аппаратуры ЭВМ (электронными схемами), в основе которой лежит использование двоичного элемента хранения данных – триггера. Он имеет два устойчивых состояния (~ вкл., выкл.), условно обозначаемых как 0 и 1 и способен хранить минимальную порцию данных равную 1 биту. Бит выступает в качестве элементарной единицы количества или объема хранимой (передаваемой) информации безотносительно к ее содержательному смыслу.

Если взять n триггеров, то количество всевозможных комбинаций нулей и единиц в них равно 2n. Формально появление 0 или 1 в ячейке можно рассматривать как равновероятные исходы событий, тогда, применив формулу Хартли I = log2 2n = n, можно сделать вывод, что в n триггерах можно хранить n бит информации.

Количество информации в 1 бит является слишком малой величиной, поэтому наряду с единицей измерения информации 1 бит, используется более крупная единица 1 байт, 1байт =8 бит =23 бит. В компьютерной технике наименьшей адресуемой единицей является 1 байт.

В настоящее время в компьютерной технике при хранении и передаче информации используются в качестве единиц объема хранимой (или передаваемой) информации более крупные единицы:

1 килобайт (1 Кбайт) = 210  байт = 1024 байт,  

1 мегабайт (1 Мбайт) = 2**  Кбайт = 1024 Кбайт = 220 байт, 

1 гигабайт  (1 Гбайт) = 210  Мбайт=1024 Мбайт = 230 байт, 

1 терабайт (1 Тбайт) =  2** Гбайт = 1024 Мбайт = 240 байт, 

1 петабайт (1 Пбайт) = 210 Тбайт = 1024 Тбайт = 250 байт.

1 экзабайт = 210 Пбайт =260 байт. 

В битах, байтах, килобайтах, мегабайтах и т.д. измеряется также потенциальная информационная ёмкость оперативной памяти и запоминающих устройств, предназначенных для хранения данных (жесткие диски, дискеты, CD-ROM и т.д.).

Какое количество информации содержится, к примеру, в тексте романа "Война и мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод:

В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.   Эти подходы используют математические понятия вероятности и логарифма. 
  

        Подходы к определению количества информации.   Формулы Хартли и Шеннона.

Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

            Формула Хартли:   I = log2N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: "выпала решка", "выпал орел";

на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

                      Формула Шеннона: I = — ( p1log2 ** + p2 log2 p2 + . . . + pN log2 pN),
 где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.


  

В качестве единицы информации Клод Шеннон предложил принять  один  бит    (англ. bit — binary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"—"нечет" и т.п.). В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица —  байт,  равная  восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.