The Information: A History, a Theory, a Flood by James Gleick (Fourth Estate, 2011)
Ако отидете в Сливен, непременно вижте жакардовия стан в музея. От него тръгва мечтата за универсална информационна машина, довела до създаването на компютъра век и половина и по-късно. Изобрението на Жозеф Мари Жакард използва перфокарти като шаблон за създаването на различни тъкани. Чарлз Бабидж и Ада Байрон били впечатлени – не от тъканите, а от системата за кодиране и нейното ниво на абстракция. Тази идея за алгоритъм (последователност от операции) виждаме в недовършените проекти за изчислителна (Диференциална, а след това Аналитична) машина на Бабидж и в „програмите” на Ада.
Научаваме това от книгата на Джеймс Глейк „Информацията. История, Теория, Излишък” – един всеобхватен почти до невъзможност опит да се опише дългият път, който изминава обработването, съхранението и предаването на информация:
- От африканските говорещи барабани до азбуката на Морз (единствената значима разлика в техния принцип е неизбежното излишество на думи, предавани чрез барабаните*)
- От първия речник на Робърт Каудри (1604 г. , 2500 разтълкувани думи, подбрани измежду 60 000 по онова време, 1 милион сега – границите на езика са динамични) до Уикипедия
- От логаритмичните таблици до алгоритмичната теория на Андрей Колмогоров и Грегъри Чейтин.
- И най-накрая - от бита, до гена и кюбита (квантовия бит)
Накратко, всички технологии и изразни средства на информацията – от писмеността до компютъра. Свързващата линия е абстракцията, обобщаването и редукцията, кодирането и дешифрирането, привеждането на многообразието от форми и значение във вид, удобен за логаритмуване, или по израза на Глейк – готов за рутинизиране.
Главният герой на „Информацията”, може би неочаквано, е Клод Шанън, а Бабидж и Алън Тюринг са негови подгласници, заедно с Курт Гьодел и още цяла плеяда учени, отразени подробно или мимоходом. Защо Шанън, а не Тюринг или Норбърт Винер?
Защото Шанън достига през 1948 г. до крайната форма на редукция и абстракция – бита. It from Bit (информацията е първа, всичко идва след това), „рапира” по-късно физикът Джон Арчибалд Уилър.
Ето как изглежда това в описанието на Шанън, неизбежно повлияно от работата му като шифровчик и изследовател в лабораторията ан Bell: Количеството информация (Н или ентропията на Шанън) зависи от това колко варианта на избор има в дадена селекция на събития. Ако вероятностите са равни, количеството информация, което всеки символ носи е логаритъм от броя на възможните символи (например броя на буквите в азбуката). Според формулата на Хартли H=n log s, а според версията на Шанън H= -åpi log2 pi, където pi е вероятността на всяко съобщение. Резултатът е бинарно число (бит), най-малкото възможно количество информация, което изразява количеството несигурност при хвърляне на монета или друго събитие от типа Да-Не или Нагоре-Надолу. При хвърлянето на монета имаме две възможности с равна вероятност – p1 иp2,всякаравна на½; логаритъм от ½ е -1 и оттук количеството информация Н е 1 бит. Една буква, избрана от азбука с 32 символа, носи 5 бита,1000 знака (при набор от 32 знака) носят 321000 възможни съобщения, а логаритъм от това число дава 5000 бита. На практика количеството информация е дори по-малко, поради статистическата структура на езика (излишеството, което Шанън оценява на 50%). Затова всяки нов знак (буква) в едно съобщение носи по-малко информация – 2.3 бита, а не 5.
Информацията е несигурност, казва Шанън. Ако можете да отгатнете следващия символ (на основание на формула или закономерна повтаряемост), той не носи нова информация. Милион хвърляния на монета обаче носят възможно най-много информация. Истината, твърди Глейк, лежи по средата, където се преплитат случайността и моделът.
Тази трактовка на информацията е шокираща. Самият Шанън не се интересува за смисъла на съобщението. Значението няма значение (достатъчно е само да се отдели сигналът от шума), комплексността се определя от минималния размер на програмата, не от нейната стойност.
„Добре темперирано пиано” на Бах (600 ноти) в изпълнението на Глен Гулд е само 135 млн. бита и може да бъде компресирана чрез MIDI протокол до няколко хиляди бита. Чарлз Бенет предлага друг измерител на стойността на съобщението (според контекта), който е от количеството информация – логическата дълбочина. Предложението на Бенет не е свързано с полезност или субективна оценка, а с количество работа. Стойността на съобщението се състои в това, „която може да се нарече покрито излишество – частите, които са предвидими със затруднение, нещата , които получателят може по принцип да пресметне, без да му е казано, но само чрез значителен разход на пари, време или изчисления.”
Ако търсите в тази книга енциклопедични познания, ще се разочаровате и това важи както за аматьорите, така и за професионалистите в областта на информатиката, математиката, генетиката, физиката, лингвистиката.
Глийк не ви предлага дефиниции и класификации, не ви засипва с факти, които ще забравите веднага щом затворите книгата. Няма да научите много за конструкцията на машината на Бабидж, нито за законите на ентропията и математическата логика. Но ще разберете какви съмнения са тревожели Ада Байрон и ще съжалявате за това, че срещата на Курт Гьодел и Чеитин е пропаднала, а заедно с това и една възможна нова формулировка на непълнотата.
В „Информацията” ще намерите също историята за откриването на ДНК, разказана почти като роман – с акцент върху откриването, не върху понятията (голяма част от които – например, имената на базите са спестени). Вместо да ви засипе с информация, „Информацията” ще ви разкаже за мемите (културния аналог на гените), за паралелното изобретяване на телеграфа или за изследванията на Лурия и Уолтър Онг върху оралните култури и неспособността за абстрактно мислене… Всичко това е подбрано така, че да ви се прииска да потърсите повече факти и концепции по темата в интернет. Доброволно.
И това като че ли прави книгата на Глейк задължително четиво за заразените с вируса на любопитството.
* - Говорещите барабани са възможни, тъй като африканските езици са тонални - lisaka означава обещание или отрова на Келе според височината на тона. Но при „превода” от говоримия език на езика на барабаните, се губи информация. Отчасти това се компенсира с тайминга, но най-вече с пояснителни изрази, които уточняват еднакво звучащите думи. По същия начин излишеството става неизбежно в зората на комуникациите, за да противодейства на шума в телефонната слушалка (И като Информация), но също и при разцвета им, защото кратките форми носят фатално объркване (Мetadone и Metadate са различни лекарства). Оказва се също, че излишните повторения са характерни и за генетичния код.