
Полная версия
Нейронное программирование диалоговых систем
Возможность измерять информацию является принципиальным свойством, позволяющим анализировать взаимодействия систем, и в некоторых случаях такое измерение может быть проведено в соответствии с определением информации, сформулированным Клодом Шенноном в работе «» [22]. Шеннон рассматривает модель коммуникационной системы, состоящей из пяти компонент: , , , и (рис. 14). А Mathematical Theory of Communication Источник информации Передатчик Канал Приемник Получатель
Схема коммуникационной системы по Шеннону Рис. 14.
Для того чтобы эту схему применить к современным информационным системам, нам понадобится внести в нее некоторые дополнения. Предположим, что информации – это набор страниц, размещенных на каком-либо сайте, – это Веб-сервер, а – персональный компьютер (рис. 15). В этой схеме используются все те же основные элементы коммуникационной системы Шеннона, только их количество увеличивается и, что является наиболее существенным, значительно увеличивается объем передаваемой информации. Источник Передатчик Приемник
Схема взаимодействия в Интернет Рис. 15.
Рассмотрим в качестве примера запрос в систему на поиск документов, в которых встречается комбинация слов – «». В результате мы получим список из ссылок на более чем 27 миллионов страниц! Если предположить, что искомая информация, которая представляет собой ответ на индивидуальный запрос, может содержаться в любой из этих страниц и считать, что объем средней страницы в Интернет составляет порядка 20 Кбайт, то суммарная длина сообщения которое все серверы готовы передать в канал для последующей обработки в персональный компьютер будет 5x10 Байт. Google information and energy L М, 14
При скорости приемника 100 Мбит/сек понадобится больше года для того, чтобы один персональный компьютер сумел получить все страницы. Если, однако увеличить скорость передачи на порядок и использовать при получении этого потока не один, а 100 процессоров, время, необходимое для того, чтобы получить это сообщение, может быть сокращено до вполне приемлемого, однако совершенно очевидно, что человек при этом будет не в состоянии прочитать 27 миллионов страниц, с какой бы скоростью они не поступали на его письменный стол.
Шеннон рассматривал каналы с шумами, в которых элементом данных является символ, что можно сравнить с потоками индивидуальных молекул, перетекающих из одного сосуда в другой под действием некоторой силы. Такая модель позволяет совершенно точно определить физические характеристики каждой отдельной молекулы, но ничего не говорит о состоянии всего сосуда в целом. Для того чтобы говорить о температуре, необходимо перейти от молекул к объемам газа. Также и символьная теория информации – позволяет нам точно оценить передаваемые потоки данных на элементарном уровне, но не дает качественной картины в целом о сообщениях, состоящих из множества страниц.
Оптимальное соответствие между физиологическими ограничениями головного мозга и характеристиками выходных интерфейсов к информационным устройствам, предназначенным для индивидуальной фильтрации данных, может быть основано на скорости чтения, которая у людей колеблется от двухсот до пятисот слов в минуту, что соответствует примерно одной странице текста стандартного документа или приблизительно трем тысячам символов в минуту. Можно предположить, что информативность документов должна быть основана на иных критериях, и в первую очередь, она должна учитывать индивидуальные особенности получателя. Количество информации, содержащейся в документе в целом, и количество информации, содержащейся в символах этого документа, могут не совпадать и более того, обязательно будут отличаться для двух различных получателей.
Попробуем представить себе некий информационный измеритель, который может давать нам приближенные качественные характеристики состояний, подобных температуре физической системы. Такой гипотетический прибор мог бы ответить на вопрос, есть ли смысл человеку читать очередную страницу из списка, предоставленного поисковым сервисом и, в более общей форме, какие именно из всего множества страниц имеет смысл прочитать. Ответ на такой вопрос возможен, если мы сумеем ввести некоторую меру, которая позволит сравнивать индивидуальное человеческое и машинное представления об информации, содержащейся в сообщениях.
Согласование различных способов представлений в программировании является весьма деликатной задачей еще и по причине того, что круг пользователей, с которыми программистам приходится непосредственно соприкасаться при создании систем, необыкновенно широк. Терминология и определения могут принципиально отличаться даже в том случае, если речь идет об очень фундаментальных понятиях. Например, если в американском армейском терминологическом словаре сказано: «», – а большинство математиков, в свою очередь, считают, что «», то для программиста бессмысленно спорить и выяснять, кто прав – армейский устав или математическая теория коммуникаций. Важнее, следуя известному анекдоту, согласившись и с первым и со вторым определениями, выработать точку зрения, которая приведет к наиболее эффективному программному решению. По этой причине, в дальнейшем мы будем использовать некоторые компромиссные представления о понятиях и критериях, которые не всегда будут совпадать с традиционными для различных научных дисциплин. Информация есть факты, данные или инструкции, записанные в любой форме и на любых носителях Информация есть мера снятой неопределенности об объекте
Среди работ, лежащих в основе теоретических представлений об информации, необходимо особо выделить труды академика А. А. Колмогорова. В статье «» Колмогоров использует теорию алгоритмов применительно к определению «» [34]. Колмогоров предлагает оценивать сложность, а стало быть и информативность, объектов через минимальную длину программы, необходимой для получения y из x. Основываясь на этом подходе, можно понять причины проблем, возникших сегодня перед разработчиками поисковых систем, и затем найти пути их решения. Три подхода к определению понятия «Количество информации» количества информации в чем-либо (х) о чем-либо (y)
Действительно, современные поисковые системы достигли впечатляющих результатов в классификации -страниц. Однако, чем глубже и точнее проводится классификация информационного пространства, тем сложнее (а стало быть и длиннее) должен выглядеть запрос, в результате которого, пользователь может получить интересующие его данные. Web
Так, если поисковая система сумеет разделить страницы в Интернет на подмножества, которые соответствуют определенным критериям классификации (, , , , , …), то для того чтобы найти интересующие его страницы, пользователь должен знать список этих подмножеств и использовать его в явной или неявной форме при формулировке поискового запроса. Как правило, интересующие нас страницы находятся на пересечении нескольких подмножеств, и логика запроса должна будет это отражать (рис. 16). A B C D E
В явной форме запрос на поиск может выглядеть следующим образом:
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.