bannerbanner
Информационный Завет. Основы. Футурологическое исследование
Информационный Завет. Основы. Футурологическое исследование

Полная версия

Информационный Завет. Основы. Футурологическое исследование

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
5 из 6

Архитектуру фон Неймана ещё называют «принстонской», поскольку над IAS-машиной учёный и его коллеги трудились в Институте перспективных исследований, расположенном в Принстоне.

Другая группа исследователей и конструкторов под руководством инженера Говарда Эйкена (Howard Aiken) работала в Гарвардском университете. Принципы организации вычислительных устройств, предложенные Эйкеном, называют «гарвардской архитектурой».


Гарвардская архитектура отличается от архитектуры фон Неймана тем, что данные и команды хранятся на разных элементах компьютера. С одной стороны, это увеличивает скорость обработки информации. С другой стороны, требуется больше деталей – резко увеличивается себестоимость устройства.

Поэтому в последующие годы возобладала более простая принстонская архитектура. Большинство современных компьютеров – потомки ENIAC, сконструированного по заветам Джона фон Неймана.


С использованием транзисторов в качестве переключателей вместо электронных ламп и электромеханических реле производство компьютеров значительно удешевилось. Начиная с 1960х гг. электронные вычислительные устройства удостоились наивысшей оценки, какую только способны дать люди вещам. Они стали массовым товаром.

Клод Шеннон и теория информации

Вернёмся немного назад во времени. За 20 лет до того, как Тьюринг придумал концепцию устройства, перерабатывающего информацию, и за 30 лет до того, как фон Нейман обосновал принципы работы этого устройства, в небольшом городке на берегу живописного озера Мичиган родился Клод Элвуд Шеннон (Claude Elwood Shannon).


Застенчивый и любознательный паренёк с детства любил возиться с техникой. Собирал авиамодели и модели радиоуправляемых лодок, чинил радиостанции для жителей провинциального Гейлорда.

Его совсем не занимали вопросы политики или религии. Он был одиночкой, не слишком разговорчивым даже с коллегами по научной работе. По словам жены, Шеннон «спал, когда хотел спать, и часто проводил часы за кухонным столом, обдумывая идеи». Вместе с тем, он постоянно что-то придумывал и изобретал5.


Одним словом, Шеннон был мыслителем-универсалом, виртуозно владевшим математической теорией и применявшим её для решения разнообразных практических вопросов. Причём внешняя оценка его не волновала. Ему просто нравилось думать.


С 1940 по 1941 год Клод Шеннон работал в принстонском Институте перспективных исследований (Institute for Advanced Study, сокр. IAS), где встречался и беседовал с Джоном фон Нейманом. Именно он, к тому времени уже маститый профессор, посоветовал молодому аспиранту рассмотреть понятие энтропии применительно к информации.

В те годы кафедру Массачусетского технологического института (Massachusetts Institute of Technology, сокр. MIT) возглавлял Норберт Винер, уже снискавший в научном мире авторитет благодаря работам по теории вероятностей, статистике, теории чисел и др. Винер сформулировал понятие о новой науке, рассматривающий информационный обмен в сложных системах, – кибернетике. В 1941 году Шеннон защитил докторскую диссертацию в MIT и позже, конечно, внимательно следил за работами Винера, где рассматривались вопросы движения информации32.

В 1943 в США прилетел Алан Тьюринг, чтобы обменяться с союзниками наработками в деле расшифровки немецких военных кодов. Он встретился с Шенноном и, в частности, показал свою работу, посвященную универсальной машине.

Спустя три года впервые в литературе появляется термин «bit» (сокращение от англ. binary digit) как единица измерения информации – в научный обиход его ввёл математик Джон Тьюки (John Tukey).


Вот краткая хронология событий, предшествовавших появлению в 1948 году знаменитой статьи Клода Шеннона «Математическая теория связи» (A Mathematical Theory of Communication) 27,29. Усилия многих учёных (в основном – математиков), иногда действовавших совместно, иногда конкурировавших друг с другом, привели к рождению того, что мы называем теорией информации. Без всякого преувеличения этот факт можно сравнить с появлением теории эволюции Дарвина и общей теорией относительности Эйнштейна.


До этой работы об информационном обмене рассуждали исключительно с утилитарных позиций. Считалось, например, что передача информации полностью зависит от свойств канала коммуникации. Если канал слишком «шумный», то передать сообщение невозможно. Поэтому надо работать над «информационной проводимостью» линий передачи, учитывая характеристики металлических сплавов и т. д. О свойствах собственно информации почти никто не задумывался.


Шеннон взялся за решение проблемы, сначала рассмотрев общие вопросы. Он ввёл понятие «информационной энтропии», предложив формулу:


H = – (p1log2 p1 + p2log2 p2 + … + pnlog2 pn)


(где H – информационная энтропия, p – вероятность того, что именно данный знак или последовательность знаков будет выбрана, n – количество всех возможных выборов).


Математик высказал гениальную догадку, что информационная энтропия играет центральную роль в теории информации как мера (критерий) информации, выбора и неопределенности.


Формула Шеннона похожа на формулу Хартли, не так ли? Так и есть. Преемственность идей не вызывает никаких сомнений.


Но что означает «минус» в формуле Шеннона? В формуле Больцмана и в формуле Хартли никакого «—» нет. Откуда он взялся?


Простое математическое объяснение заключается в том, что p (вероятность) всегда меньше единицы. Значит, логарифм (в какую степень нужно возвести 2, чтобы получилось p) всегда будет отрицательным числом. Для удобства расчётов информационной энтропии на практике Шеннон ввёл «‒», чтобы полученная формально отрицательная величина превратилась в положительную. Строго говоря, по формуле Шеннона вычисляется модуль информационной энтропии.


Допустим, мы располагаем всего двумя различающимися знаками (a и b) и хотим составить сообщение длиною в десять знаков. Если мы используем в сообщении один знак (пусть это будет b), а другой (a) не используем, то вероятность встретить первый знак – 100% или 1,0, а второй знак – 0% или 0,0. Тогда сообщение, включающее знак a, не существует (количество информации и информационная энтропия для сообщения со знаком a равны нулю). Есть только ряд: bbbbbbbbbb.


Мы решили разнообразить однородную последовательность: появляется знак a. Вероятность встретить его в нашем сообщении увеличивается. Скажем, возьмём семь b и три a: вероятность встретить a составит 0,3. Одновременно увеличится количество информации: с помощью двух знаков, очевидно, можно передать больше смысла. И также увеличится энтропия сообщения: количество комбинаций из a и b будет нарастать. В какой-то момент их станет максимальное число. Когда это произойдёт? Тогда, когда мы используем пять a и пять b. Т.е. при условии, что вероятность встретить a составит 0,5.

Действительно, располагая равным количеством разных знаков и комбинируя их в любом порядке, мы можем получить наибольший набор последовательностей. Неупорядоченность текста максимальна (представьте обезьян-машинисток на пике творческого аврала).


Пойдём дальше. Начнём использовать знак a чаще, чем b. Вероятность возрастает, число a увеличивается, но энтропия уменьшается. Почему? Потому что, располагая, например, семью a и тремя b, мы можем составить меньше комбинаций – следовательно, меньше смысла, зато он становится более определенным. Информация упорядочивается.


Наконец, когда текст состоит из одних a (вероятность встретить её в сообщении равна 1,0), смысл может только один – никаких кривотолков и отклонений. «aaaaaaaaaa» и всё тут. Информационная энтропия снова равна нулю. Но количество информации для сообщения со знаком a максимально (10 из 10 в последовательности).


Клод Шеннон предложил считать информационную энтропию и собственно информацию в битах.


Может показаться, что использование бинарного кода – ненужная сложность. Напротив, это очень удобно.

Когда, например, говорят, что общий информационный объём (абсолютная энтропия) сообщения равен 10 битам, это означает, что существует 1024 возможных комбинаций символов, из которых может быть составлено сообщение. Допустим, чтобы составить какое-либо сообщение, имеющее смысл, нам достаточно информации в количестве 4 бита (фактическая энтропия). Это значит, что всего есть 16 (24) комбинаций, необходимых для того, чтобы собеседники понимали друг друга. Все остальные комбинации символов – бесполезная белиберда.

Как вычислить эту белиберду? Шеннон нашёл простое решение: из абсолютной энтропии надо вычесть фактическую. Это и будет избыточностью (redundancy) данного сообщения. Таким образом, математик предложил объяснение буквенно-фонетической избыточности, которую мы обсудим в следующей главе.


Исследования Гарри Найквиста, обосновывающие порционную (дискретную) обработку информации, получили продолжение в работах Клода Шеннона и были обобщены им в теорему дискретизации (sampling theorem). Идее о том, что любую информацию из непрерывного потока можно превратить в дискретные (например, цифровые) сигналы, а потом – восстановить обратно, Шеннон придал строгую математическую форму28.


Процедура цифровой обработки сигналов (digital signal processing), ставшая в наши дни рутинной, целиком подчинена теореме дискретизации. А все системы связи конструируются с учётом положений теории информации.


Идеи Клода Шеннона послужили триггером для некоторых научных теорий, включая, например, теорию Колмогрова-Арнольда-Мозера или просто КАМ (Kolmogorov-Arnold-Moser (KAM) theory) – в чём честно признавался один из её авторов19.


Рядовой международный симпозиум, состоявшийся в 1985 году в Брайтоне и посвященный проблемам информационного обмена, не предвещал никаких сюрпризов. Инженеры, программисты, математики собрались обсудить текущие научные вопросы. Но деловой настрой развеялся, когда внезапно на форуме был замечен Клод Шеннон.

Преодолев неприязнь к публичным мероприятиям, создатель теории информации всё-таки появился в профессиональном сообществе. Симпозиум мигом преобразился в его бенефис. Вежливо, но настойчиво расталкивая друг друга, информационщки пробивались к скромной фигуре выдающегося математика. Чтобы взять автограф. Чтобы пообщаться и улыбнуться тому, кто открыл новый путь и сделал по нему первые шаги. Этот путь – научное познание информации.

Математические основы гипотезы существования информационного человека

Меньше, чем за сотню лет, был проделан путь, наполненный парадоксами и гениальными догадками. Венец пути – теория информации как «математическое доказательство» бытия информационного человека.


«Демон Максвелла»: информация – такая же фундаментальная величина, как и энергия.


H-теорема Больцмана: логарифмическая зависимость энтропии от вероятности обнаружения элемента системы.


«Дактилографическое чудо» Бореля: проблема различения полезной и бесполезной информации.


Частота Найквиста: предположение о соотношении полезной информации и шума в канале передачи.


Формула Хартли: мера информации – количество шагов, которые необходимо сделать, чтобы отразить минимальный смысл.


Машина Тьюринга: концепция вычислительного устройства, эффективно перерабатывающего любую информацию в соответствие с алгоритмом.


Архитектура фон Неймана: принципы работы вычислительного устройства, включая двоичный код как систему записи информации.


Математическая теория информации Шеннона: расчёт объёма информации и информационной энтропии, понятие избыточности языковых систем.


Хорошая теория порождает хорошие инструменты. Математическая теория информации выдержала проверку временем. По моему мнению, её прямыми и косвенными следствиями являются:


1. Мы сами и всё вокруг нас – информация.


Всякое сложное явление (природное, социальное) может быть рассмотрено как информационная система или как взаимодействие таких систем.


2. Информацию можно посчитать и организовать.


Всякое количество информации характеризуется степенью упорядоченности, которую можно вычислить.


3. Информацию можно сжать.


В любом объёме информации присутствует избыточность, устранение которой помогает выделить смысл. Чем больше смысла можно вместить в единицу объёма за единицу времени, тем выше скорость передачи информации.


4. Бытие информационных систем сопровождается рождением смысла.


Системообразующим фактором информационной системы является такая переработка информации, при которой она из неупорядоченной формы преобразуется в упорядоченную.


Фундаментальное значение математической теории информации может быть оспорено. Критики не готовы переосмыслить новое содержание термина «информация», которое следует из предложенного здесь математического объяснения. Нелегко отказаться от привычки думать по-старому. Как приучили школьные учителя, как вещают маститые эксперты и модные публицисты.


Ограниченное толкование информации может и должно быть преодолено. «Всё проходит, и это пройдёт».


Что такое современный мир с точки зрения теории информации? Это мир борелевских обезьян. Мир, в котором вычислительные устройства (компьютеры и люди) рождают не столько новые смыслы, сколько бессмысленные информационные объёмы.


Как перестать быть борелевскими обезьянами? Надо выбросить пишущие машинки и взяться за компьютеры. Но не за те машины, которыми пользуются сейчас, и чьи вычислительные возможности относительно скромны. А за устройства, организованные по принципам, описанным современной наукой. Например, квантовые компьютеры.


Что случится с обезьяной, пересевшей за такое устройство? С его помощью она создаст больше полезной информации и будет обмениваться ею с другими информационными существами. Возникнут предпосылки для качественной трансформации как окружающего мира, так её собственной природы.


Тогда, возможно, она перестанет быть обезьяной и станет кем-то другим.

Глава 3. Благая весть от лингвистов

Другими словами

Есть ли связь между математикой и лингвистикой?


Первая оперирует бесстрастными цифрами и строгими формулами. Кажется, что в мире математики царит гармоничный порядок.

Вторая рассыпается словами, описывающими… другие слова. Причём одни и те же буквенно-фонетические сочетания могут означать разное. Бардак, да и только.


Тем не менее, связь существует.


Во-первых, в наши дни лингвисты тяготеют к математическому описанию своих теорий – рисуют схемы и псевдо-формулы, строят иерархии множеств и т. д. Таково требование времени. Языковеды тоже хотят быть современными.

Во-вторых, цифры и буквы суть знаки. Знаки – внешнее отражение информации. Для информационного устройства/существа нет принципиальной разницы, каким символом пользоваться. У компьютеров – двоичный код, у человека – языковая коммуникация. И то, и другое – система знаков.


Учёные-лингвисты, как и прочие специалисты, исполнены чувства профессионального самолюбия. Они ревниво оберегают свою территорию. С их точки зрения, я – самый заурядный любитель.


Пусть так. Говорят, что недостатки – продолжение наших достоинств. У всех специалистов есть неразрешимая проблема. Они настолько углубляются в свой предмет, что не видит того нового, что происходит в других областях знания. Им некогда. Поэтому, как правило, специалисты не способны к междисциплинарным обобщениям. И всегда отыскивается дилетант, ясно различающий и соринку, и бревно.


В этой главе мы исследуем факты, свидетельствующие о глубокой трансформации знаковых систем. Эти изменения невозможно обратить вспять, а их результат, скорее всего, навсегда преобразит профессиональный облик такой замечательной специальности, как лингвистика.


Вот эти факты:

1. Люди перестают читать буквенные тексты.

2. Люди всё больше предпочитают смотреть картинки и видео.


Что такое буквенный текст? Это средство передачи информации. Или способ записать какой-либо смысл. На протяжении более пяти веков записи ведутся на национальных языках.


В начале XIX века Вильгельм фон Гумбольдт (Wilhelm von Humboldt) изрёк: «Язык – дух нации»4. Иными словами, выдающийся лингвист указал на зависимость типа знаковой системы (национальный язык) от типа социума (национальное государство). Это прямая, нерушимая связь.


В предыдущей главе мы увидели, что избыточность национальных языков – не оборот речи, а математическое понятие. Оно вычислимо.


Но раньше, чем за что-то всерьёз берётся наука, явление подмечается «мастерами художественного слова» – ораторами, писателями, философами. О языковой избыточности было известно ещё в древности24, а в индустриальную эпоху она стала предметом любопытной дискуссии с участием, как её апологетов, так и критиков3,21,40.


В информационную эпоху тональность оценки языковой избыточности поменялась на добродушно-ироничную. Некоторыми проницательными литературными художниками, такими как Станислав Лем (Stanisław Lem), информационная природа языковой избыточности осознавалась вполне ясно14.


Какова связь между языковой избыточностью и двумя фактами, приведенными выше? Полагая людей информационными существами, естественно заключить, что общение между ними чрезвычайно важно. Коммуникация – частный случай информационного обмена. Тогда совершентсвование её средств и форм – насущная задача людей. Решая которую, они извлекают больше полезных смыслов и создают лучшее знание. В этом процессе отказ от неудобных средств передачи информации и переход к эффективным инструментам коммуникации – обычное и неизбежное явление. Если язык, как знаковая система, проявляет обременительную избыточность, значит, надо от него отказаться. И внедрить нечто более удобное.


Итак, мы займемся исследованием этого объяснения на прикладном уровне. А именно – с позиции языкознания.


Для этого потребуется ответить на вопросы:

1. Что такое коммуникация?

2. Что такое язык?

3. Каковы распространенные средства общения?

4. Что происходит с современными средствами общения?

5. Каковы альтернативные средства общения?

6. Каким образом на основе альтернативных средств можно сформировать новый способ коммуникации?

7. В чём состоят основные выводы?


По такому плану построена данная глава. В её финале мы увидим: хорошо ли нам удалось объяснить то, что люди предпочитают смартфоны печатным книгам.


Но прежде – две короткие зарисовки, характеризующие проблему языковой избыточности. У каждой из них будет свой оттенок.

Школьный этюд

Моя старшая дочь учится в обычной школе, в обычном восьмом классе. Она изучает русский, английский и немецкий язык. Родной язык преподается, конечно, более углублённо. Её и других школьников обучают делать всевозможные грамматические разборы: фонетический, морфемный, морфологический, синтаксический, пунктуационный и пр.


На мой вопрос, для чего им всё это, дочь честно ответила, что не знает. Наверняка школьные учителя давали подробные объяснения. Убеждён, что дочка их внимательно слушала (она учится хорошо). Тем не менее, для неё и для меня остаётся непонятным: зачем?


Напрашиваются такие ответы:


– Чтобы грамотно говорить и писать.


А для чего это нужно? Насколько можно судить по друзьям и подругам моей дочери, они не заморачиваются грамматикой в повседневном общении. Я уж не говорю о коммуникации в соцсетях, где правила словоупотребления попросту игнорируются. Возможно, грамотное говорение и письмо – залог общественного успеха? Ну-ка, прислушаемся и присмотримся: насколько грамотны телеведущие, блогеры и звёзды YouTube-каналов?


– Чтобы знать язык, потому что это наша культура, история и т. д.


Что такого есть в культуре, истории, традициях, что нужно трепетно хранить и передавать? Наверное, существует пара исторических фактов, о которых ребёнку нужно знать. Из тех, что, например, характеризуют ошибки, вследствие которых гибли миллионы людей. Об этом полезно помнить. Но какое отношение это имеет к грамматике? Обретёт ли ребёнок счастье, затвердив этимологию этого слова?


– Чтобы чётко выражать свои мысли.


Продолжив логику утверждения, получим: чтобы тебя лучше понимали. Однако, слово – сочетание звуков или буквенных знаков – не самое эффективное средство взаимопонимания. Жест выразительнее, понятнее и экономичнее слова. Сложную мысль удобнее донести схемой, графиком, рисунком.


– Чтобы лучше понимать других.


Это сильный аргумент. Собственно, именно поэтому в коммуникацию был введён алфавит. Со временем, однако, буквенная система стала проблемой. Многообразие слов, понятий, терминов грозит семантическим хаосом (подробнее остановимся на этом позже). Я бы не хотел, чтобы мои дети жили в таком мире.


Попробуем разобраться, действительно ли знание грамматики и прочих лингвистических премудростей помогает нам лучше понимать других людей.


Вот кто-то произнёс слово: нехороший. О чём оно?


Выполнив морфемный и компонентный разбор, получим: хорош – морфема, нехорош – семема, причём не – морфема и сема отрицания одновременно.


Ну, и что? Проблема в том, что, даже выполнив все положенные грамматические процедуры, мы не можем указать точный смысл сообщения.

Основа нехорош отражает не одно, а несколько лексических значений. Нехороший может означать: «плохо исполненный», «изношенный», «злой», «тревожный», «хаотичный», «дурно пахнущий» и ещё много чего. Всё, что мы можем сказать о смысле этого слова: «Ну, уж точно не хороший».


Изучение контекста мало что даёт по-существу. Я могу сказать: «нехороший человек» или «нехороший день». Что имеется в виду? Вы никогда этого не поймёте, если я не захочу посвятить вас в подробности. Употребляя определение «нехороший», можно подразумевать описание внешности, характера, погоды, конфликта и т. д. Комбинация букв прячет смысл, а не проясняет его.


Потренируемся в другом разборе. В грамматическом. Допустим, некто написал: В горах, где царит безжалостный холод, и властвуют ледяные ветра, я быстро ослабел: меня стало знобить – захотелось поскорее добраться до тёплой постели и уснуть сном младенца.


Главный (финитный) глагол здесь – ослабел. Это слово характеризует событие, произошедшее с героем. Таков смысл длинного предложения.


Есть подвох. Если рассмотреть слово ослабел изолированно (как сделали ранее со словом нехороший), то мы снова потеряем уверенность, что поняли всё так, как хотел автор высказывания. Глагол ослабеть толкуется широко. Как ослабел? Физически? Интеллектуально? Духовно? О чём вообще речь?


Возразят: для точной передачи смысла данного глагола служат остальные слова в предложении.


Да! Именно так. В том-то и состоит проявление избыточности фонетического письма. Чтобы правильно передать смысл, как и в случае со словом «нехороший», к существующей комбинации букв мы вынуждены добавлять другие комбинации других букв. Цепочки пояснительных знаков растут, как печатные тексты борелевских обезьян.


Разумеется, можно не следовать строгому синтаксическому алгоритму, а, прочитав предложение, сразу заявить: «Ну, всё понятно. Он заболел». Но ведь это произойдёт не вследствие магического действия закорючек на бумаге. Не нужно путать причину со следствием. Различение смысла – функция нашего мозга. Который попросту привык к буквенно-фонетическому способу коммуникации.


Сколько графических знаков в рассмотренном предложении? Это легко посчитать. Количество слов – 26. Однако графем гораздо больше – 175.


Картинка выразит смысл полнее и точнее. Схематичное изображение человека, лежащего в постели и укутанного одеялом, с полотенцем на голове и градусником в подмышке. Смысл будет ясен. При этом вместо 175 графических символов понадобится всего один.

Математический этюд

Согласно общепринятой в математической теории информации схеме принципиально существует три субъекта информационного обмена:

На страницу:
5 из 6