bannerbanner
Теория и практика общественно-научной информации. Выпуск 22
Теория и практика общественно-научной информации. Выпуск 22

Полная версия

Теория и практика общественно-научной информации. Выпуск 22

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
2 из 3

В число сервисов, которые необходимо поддерживать на государственном уровне и которые должны использоваться для контроля качества научных результатов, а также научных коммуникаций и научных институций в целом, входит система антиплагиата. Ее необходимость стала очевидной и научному сообществу, и руководству страны. Дело осталось за внедрением. Но наличие таких мощных ресурсов, как Электронная библиотека диссертаций и Научная электронная библиотека, позволяет надеяться на положительный результат.

Самостоятельная задача, которую нужно решить при моделировании информационного пространства науки и образования, – это создание системы долговременного хранения информационных ресурсов. Существующая государственная система архивов как по идеологическим, так и по организационно-технологическим причинам непригодна для решения этой задачи. В то же время очевидна необходимость решения этой задачи, причем принципы сохранности должны быть приемлемы для научного сообщества и реализуемы практически.

Таким образом, научно-информационному сообществу следует разработать и согласовать следующие компоненты идеального информационного пространства:

• минимальную номенклатуру общедоступных информационных ресурсов, необходимых для научно-образовательного сообщества и претендующих на государственную постоянную поддержку;

• полную номенклатуру полезных ресурсов, рассчитанных на различные бизнес-модели, в том числе грантовые или коммерческие;

• критерии качества информационных ресурсов, на которых должна быть основана система финансирования;

• механизмы формирования и обновления корпуса экспертов, обеспечивающих контроль качества информационно-образовательных ресурсов и сервисов;

• механизмы сохранности научно-образовательных информационных ресурсов;

• изменения в правовой базе, кроме авторско-правовых, в частности правовой статус разных компонентов информационного пространства.

Возможно, для построения модели информационного пространства потребуются и другие инструменты, например, стандартизация, мониторинг, учет и статистика, типовые решения (особенно по онтологиям, классификации, метаданным). Для нынешнего состояния информационного пространства эти механизмы непригодны, но нельзя исключать их полезности в будущем.

Литература

1. Антопольский А.Б. О концепции системы научной информации в сфере педагогики и психологии // Информационное обеспечение науки: новые технологии: сб. науч. тр. / Под ред. Н.Е. Каленова. – М.: Научный мир, 2009. – С. 42–54.

2. Антопольский А.Б. О моделях доступа к российской педагогической периодике // Библиотека и чтение в структуре современного образования: Материалы Межрегиональной научной конференции (Москва, 29 октября 2009 г.). – М.: Наука, 2009. – С. 10–23.

3. Антопольский А.Б. Правовые, социальные и экономические модели информационного общества в сфере культуры // Информационное право и становление основ гражданского общества в России: Материалы теоретического семинара по информационному праву 2007 г. – М.: ИГП РАН, 2008. – С. 62–90.

4. Антопольский А.Б., Поляк Ю.Е. Об исследованиях публикационной активности ученых (на примере членов Российской академии образования) // Информационные ресурсы России. – М., 2011. – № 1. – С. 4–16.

5. Антопольский А.Б., Поляк Ю.Е., Усанов В.Е. О российском индексе веб-сайтов научно-образовательных учреждений // Информационные ресурсы России. – М., 2012. – № 4. – С. 2–7.

6. Истина – Интеллектуальная Система Тематического Исследования Научно-технической информации, созданная в МГУ им М.В. Ломоносова [Электронный ресурс]. – Режим доступа: http://istina.imec.msu.ru/

7. Каленов Н.Е., Селюцкая О.В. Некоторые оценки качества Российского индекса научного цитирования на примере журнала «Информационные ресурсы России» // Информационные ресурсы России. – М., 2010. – № 6. – С. 2–13.

8. Огнев А. Академию наук взбодрит прозрачный рейтинг [Электронный ресурс]. – Режим доступа: http://www.strf.ru/material.aspx?CatalogId=221&d_no=51747

9. Федеральный закон № 275-ФЗ «О порядке формирования и использования целевого капитала некоммерческих организаций» от 30 декабря 2006 года.

10. Федеральный закон № 276-ФЗ «О внесении изменений в отдельные законодательные акты Российской Федерации в связи с принятием Федерального закона № 275-ФЗ «О порядке формирования и использования целевого капитала некоммерческих организаций» от 30 декабря 2006 года.

11. Федеральный закон № 328-ФЗ «О внесении изменений в отдельные законодательные акты Российской Федерации в части формирования и использования целевого капитала некоммерческих организаций» от 21 ноября 2011 года.

Интеграция информационных ресурсов Сибирского отделения РАН как шаг к формированию единого научно-образовательного информационного пространства 11

Б.С. Елепов, О.Л. Жижимов, А.М. Федотов, Ю.И. Шокин 12 Послушайте, ребята,Что вам расскажет дед.Земля наша богата,Порядка в ней лишь нет.А.К. Толстой

Представлен опыт интеграции информационных ресурсов Сибирского отделения РАН для формирования единого научно-образовательного информационного пространства. Описывается платформа массовой интеграции данных ZooSPACE, разрабатываемая в Институте вычислительных технологий СО РАН.

Ключевые слова: информационное пространство науки и образования; информационные ресурсы; информационная система; распределенная информационная система; платформа массовой интеграции данных ZooSPACE.

Одним из основных результатов социальной и интеллектуальной человеческой деятельности является создание и накопление информационных ресурсов с целью их дальнейшего использования и недопущения утраты опыта предыдущих поколений. На протяжении всей истории человечества уровень развития технологий накопления информации и эффективности ее использования значительно влиял на уровень развития производительных сил. Утеря информации приводила к отбрасыванию цивилизации на века назад. Чтобы эффективно пользоваться накопленной ранее информацией, необходимы специальные инструменты и технологии.

Наверное, не будет большим преувеличением утверждение о том, что проблема поиска информации является для человеческого сообщества одной из главных. Великий аргентинский писатель Хорхе Луис Борхес в эссе «Четыре цикла» писал, что в мировой литературе вечны четыре темы.

1. Падение города.

2. Возвращение героя.

3. Поиск.

4. Самопожертвование бога.

Нетрудно заметить, что наиболее часто встречается как в литературе, так и в реальности третья тема – поиск, ибо четвертая тема выходит за рамки обычного человеческого опыта, а две первые проявляются лишь в «минуты мира роковые».

Любой производственный или научный процесс порождает огромные объемы данных, и работать с ними по мере увеличения объемов становится все сложнее. Количество данных когда-нибудь превысит способность человека их обрабатывать, поэтому необходимы новые инструментальные средства и алгоритмы для анализа. Вместе с тем предъявляются серьезные требования к обеспечению прозрачного доступа и долговременной сохранности информации. В результате вопросы «что хранить?», «как хранить?» и «как найти?» остаются самыми существенными: без ответа на них все остальные теряют актуальность (10).

Взаимодействие человека с информацией, существующей в машиночитаемом виде (данными), осуществляется при помощи специализированных программных комплексов – информационных систем (ИС), предназначенных для:

• организации хранения информации (организация хранилищ, поддержка систем хранения данных)‏;

• управления информацией (добавление, модернизация, изменение данных)‏;

• управления доступом к информации (контроль исполнения правил регламентации доступа к данным), идентификация данных;

• поиска информации;

• извлечения информации и предоставления ее пользователю (приложению) в необходимом ему виде;

• визуализации (представления) информации в соответствии с требованиями пользователя (4; 7).

Исходя из тенденций развития систем коммуникаций и практики организации локальных хранилищ данных современная ИС должна удовлетворять некоторым общим требованиям, а именно:

• она должна быть распределенной – РИС13;

• РИС должна обеспечивать контролируемый доступ к различным информационным ресурсам для пользователей и администраторов различных уровней;

• РИС должна обеспечивать сквозной поиск, в том числе полнотекстовый, по различным критериям;

• РИС должна предоставлять информацию в требуемом пользователем виде;

• внутренние технологии РИС должны быть скрыты от пользователей;

• внешние интерфейсы должны быть стандартизованы (6).

При попытках разработки РИС, удовлетворяющих перечисленным требованиям, возникают проблемы, связанные с различными аспектами их функционирования. Эти проблемы можно сгруппировать в следующие классы (2; 6):

• модели и стандарты представления информации и метаинформации.

К сожалению, следование рекомендациям международного сообщества о стандартизации схем данных не является характерной чертой подавляющего большинства разрабатываемых и функционирующих информационных систем14;

• автоматическая классификация информации.

Разработчики ИС не используют модели классификации хранимой информации, затрудняя тем самым включение механизмов, в том числе внешних, для ее автоматической классификации;

• доступ к распределенным и разнородным коллекциям (интероперабельность, масштабируемость, обнаружение релевантной информации, интеграция метаинформации).

Интероперабельность создаваемых информационных систем не выдерживает даже минимальной критики (2);

• интерфейсы пользователей, визуализация и анализ данных.

К сожалению, подавляющее количество существующих ИС оперирует только с графическими веб-интерфейсами доступа к данным. При этом возможность доступа к данным вне графических интерфейсов, как правило, не реализуется. Это исключает возможность интеграции разрабатываемых ИС в крупные информационные системы (4);

• вопросы интеллектуальной собственности.

Это вечная проблема информационных ресурсов, тиражирование которых не связано с материальными затратами;

• анализ и обработка естественного языка, изображений, видео- и аудиоданных.

Обработка контента требует специальных подходов к каждому типу данных. В частности, необходима реализация поиска по фрагментам (фрагмент текста, фрагмент изображения и т.п.) с использованием шаблонов (шаблон текста, шаблон изображения и т.д.). Реализация специфических шаблонов для такого поиска представляет собой отдельную проблему;

• многоязыковый доступ к данным и обслуживание данных на нескольких языках.

Доступ такого рода требует многовариантности индексирования данных и реализации динамического преобразования данных;

• мобильные технологии и агенты.

Речь идет о реализации интерфейсов доступа к информации, ориентированных на возможности клиентских устройств;

• методы и средства поиска, каталогизация, индексирование, поддержка целостности и непротиворечивости коллекций, безопасность и защита информации.

Это вечные проблемы, от способа решения которых зависит общая функциональность ИС.

Решение сформулированных проблем предполагает создание развитой инфраструктуры для представления и обмена метаданными (данными о ресурсах), без которой невозможно формирование единого информационного пространства (9). Это можно рассматривать как первый шаг к интеграции и интероперабельности информационных систем. Под интероперабельностью любой ИС, в том числе и электронной библиотеки, понимается степень ее способности взаимодействовать с другими ИС, в том числе и с человеком. Но если в последнем случае основная нагрузка на обеспечение взаимопонимания ложится на человека, который в состоянии обработать даже очень плохо организованную информацию, то для обеспечения эффективного взаимодействия между автоматическими ИС требуются специальные технологические методы и общие соглашения (5).

В основе интеграции РИС лежит интеграция метаданных, основанная на стандартах формата для представления метаданных, одновременно с унификацией нормативно-справочной информации (профиля информационных систем) (7).

Под интеграцией данных с точки зрения пользователя следует понимать:

• возможность свободно группировать любые имеющиеся разнородные данные по любому признаку в произвольные реальные и / или виртуальные коллекции;

• возможность организовывать по всем массивам данных прозрачный для конечного потребителя сквозной поиск информации.

Реализация механизмов интеграции данных немыслима без их стандартизации: данные одного типа должны описываться и предоставляться единым образом в соответствии с нормативными документами. В частности, в стандартизованном виде должны предоставляться следующие типы информационных ресурсов:

• географические информационные ресурсы (картографические материалы, спутниковые снимки, данные полевых наблюдений и т.п.), а также соответствующие базы метаданных;

• фактографические базы данных и метаданных;

• библиографические базы данных и электронные каталоги;

• полнотекстовые базы данных и электронные библиотеки;

• авторитетные базы данных (описывающие субъекты информационного взаимодействия: персоны, организации и т.п.);

• другие ресурсы (аудио- и видеозаписи, электронные презентации и др.), снабженные стандартизованными метаданными.

Исходя из вышеперечисленных особенностей, на наш взгляд, РИС должна содержать следующие отдельные функциональные компоненты (5):

• систему идентификации информационных ресурсов;

• систему идентификации, аутентификации и авторизации пользователей;

• систему управления метаданными;

• систему управления информационными ресурсами, в том числе полнотекстовыми;

• систему сбора статистики;

• систему мониторинга доступности сервисов и ресурсов.

Реализация этих подсистем должна основываться на открытых спецификациях, связанных с международными стандартами. В распределенной среде должны быть задействованы механизмы синхронизации данных, например на основе репликаций. При этом в качестве протоколов сетевого взаимодействия должны выступать стандартные протоколы, например OAI, Z39.50, SRW/SRU, LDAP и др. (1; 3; 4; 8) (см. рис. 1).


Рис. 1. Сетевое взаимодействие подсистем РИС


Практическая реализация сервисов SRW/SRU даст существенно новое качество информационной системы – возможность включения ее ресурсов в глобальные поисковые системы на более высоком уровне, нежели уровень внешней индексации статических веб-страниц другими системами. Иные возможные типы поиска связаны с поиском по заданным шаблонам и поиском с привлечением онтологии. Последний является более интеллектуальным типом поиска. Для его реализации требуется дополнительная информация о предметной области, включающая определения терминов, сущностей и связей. Следует отметить, что представление этой дополнительной информации должно соответствовать глобальным договоренностям и международным стандартам. Иначе поиск с привлечением словарей, тезаурусов и онтологии всегда будет ограничен текущей системой, а интероперабельность не будет реализована.

В настоящее время существуют достаточно мощные информационные системы, в той или иной степени удовлетворяющие потребности научных работников в информации. Однако основной недостаток большинства систем – ограниченность возможностей обеспечения интеграции ресурсов как внутри каждой из систем, так и вовне. Отметим, что основу разработки ИС составляют, прежде всего, стандарты и международные рекомендации, формирующие профиль ИС. Под ним понимается набор из одного или нескольких базовых нормативно-технических документов (стандартов и спецификаций), ориентированных на решение определенной задачи (реализацию заданной функции либо группы функций приложения или среды) с указанием при необходимости выбранных классов, подмножеств, опций базовых стандартов, требуемых для выполнения конкретной функции. Наиболее важным являются профили метаданных циркулирующей в системе информации. Выбор профиля должен основываться на выполнении следующих требований:

• включать в себя основные типы информации, требующейся для поддержки научной работы;

• быть открытыми, т.е. обеспечивать доступ к соответствующей информации по этим описаниям;

• быть расширяемыми, т.е. обеспечивать возможность детализации описаний;

• обеспечивать возможности интеграции информации;

• обеспечивать возможности уникальной идентификации информации;

• обеспечивать возможности размещения и поиска информации в распределенной среде;

• быть ориентированными на современные и перспективные технологии описания и использования информации;

• обеспечивать возможности интероперабельности с внешней средой.

Собственно реализация каждой подсистемы при стандартизованных внешних интерфейсах не очень существенна. Однако базовые технологии их реализации вытекают естественным образом из их общей функциональности (см. пример на рис. 2).


Рис. 2. Базовые технологии компонент РИС


Рис. 3. Инфраструктура РИС библиотек СО РАН


В качестве иллюстрации РИС на основе перечисленных правил может выступать создаваемая РИС библиотек СО РАН, инфраструктура которой изображена на рисунке 3.

Другой иллюстрацией описываемого подхода может служить платформа массовой интеграции данных ZooSPACE, разрабатываемой в рамках Проекта ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007–2013 годы» по теме «Разработка принципов и программных средств виртуальной интеграции распределенных источников данных на основе международных стандартов для создания масштабных информационных инфраструктур» (контракт № 07.514.11.4130), заказчиком которого является Министерство образования и науки Российской Федерации.

Платформа массовой интеграции предназначена для создания и поддержки функционирования масштабных, динамически формирующихся информационных инфраструктур из большого числа автономных баз данных. ZooSPACE должна обеспечивать функциональные характеристики:

1) поддержку унифицированного по информационной инфраструктуре представления данных, которое позволяет выполнять поисковые запросы, не зависящие от физического расположения данных;

2) предоставление прикладных программных интерфейсов для выполнения массовых поисковых запросов и управления информационной инфраструктурой;

3) обработку массовых запросов к совокупности баз данных реляционного и иерархического типов;

4) выбор поискового пространства запроса по метаданным, описывающим характеристики баз данных информационной инфраструктуры;

5) синтаксический контроль запроса с соответствующей диагностикой до начала его выполнения;

6) подключение / отключение баз данных и вычислительных ресурсов по инициативе их администраторов в процессе функционирования инфраструктуры;

7) защиту хранимых в информационной инфраструктуре данных от несанкционированного доступа.

Предполагается, что система ZooSPACE будет состоять из произвольного количества слабосвязанных самодостаточных узлов, функционирующих в соответствии с единой политикой. Взаимодействие узлов между собой осуществляется посредством сетевых протоколов прикладного уровня на основе транспортного протокола TCP / IP, как показано на рисунке 1.

Количество узлов в ZooSPACE не нормируется и может быть любым. Система ZooSPACE может состоять из одного-единственного узла.

Такой выбор инфраструктуры узлов позволяет обеспечить достаточно гибкую распределенную информационную систему и реализовать всю необходимую функциональность, которая обеспечивается подсистемами ZooSPACE. В качестве подсистем ZooSPACE должны выступать следующие (см. рис. 4):


Рис. 4. Основные подсистемы ZooSPACE


• ZooSPACE-L – обеспечение функционирования справочной и административной подсистемы ZooSPACE;

• ZooSPACE-Z – обеспечение функционирования подсистемы доступа к базам данных системы ZooSPACE;

• ZooSPACE-M – обеспечение функционирования системы мониторинга всех компонент ZooSPACE;

• ZooSPACE-S – обеспечение функционирования подсистемы сбора статистики работы всех компонент ZooSPACE;

• ZooSPACE-W – обеспечение реализации пользовательских и административных веб-интерфейсов доступа к другим подсистемам ZooSPACE.

Система ZooSPACE в настоящее время находится на уровне предварительных испытаний.

В заключение отметим, что разрабатываемый в ИВТ СО РАН подход к построению распределенных информационных систем позволяет обеспечить возможность интеграции разнородных и разнотипных информационных ресурсов в единую информационную среду и унифицированного поиска благодаря использованию унифицированной модели работы с данными (в идеологии протокола Z39.50). Созданная система сервисов предоставляет широкому кругу потенциальных пользователей стандартизированный доступ к данным и алгоритмам их обработки. Такой подход позволяет обеспечить высокую степень информационной поддержки междисциплинарных научных исследований.

Литература

1. Жижимов О.Л., Мазов Н.А. Принципы построения распределенных информационных систем на основе протокола Z39.50 / ОИГГМ СО РАН. – Новосибирск: ИВТ СО РАН. – 2004. – 361 с.

2. Жижимов О.Л., Мазов Н.А., Федотов А.М. Некоторые заметки об эволюции цифровых репозитариев традиционных библиотек к полнофункциональным электронным библиотекам // Вестник Владивостокского гос. ун‐та экономики и сервиса. Территория новых возможностей. – Владивосток, 2010. – Т. 3. – № 7. – С. 55–63.

3. Жижимов О.Л., Пестунов И.А., Федотов А.М. Структура сервисов управления метаданными для разнородных информационных систем [Электронный ресурс] // Электронные библиотеки: рос. науч. электр. журнал. – 2012. – Т. 15. – № 5. – http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2012/part6/ZPF

4. Жижимов О.Л., Федотов А.М., Федотова О.А. Построение типовой модели информационной системы для работы с документами по научному наследию // Вестник НГУ. Сер.: Информац. технологии. – 2012. – Т. 10. – № 3. – С. 5–14.

5. Жижимов О.Л., Федотов А.М., Шокин Ю.И. Разработка принципов и программных средств виртуальной интеграции распределенных источников данных на основе международных стандартов для создания масштабных информационных инфраструктур // XIV Российская конференция с участием иностранных ученых «Распределенные информационные и вычислительные ресурсы» – DICR-2012 (Новосибирск, Россия, 26.11 – 30.11.2012): Программа конференции и тезисы докладов. – Новосибирск: ИВТ СО РАН, 2012. – С. 20.

6. Жижимов О.Л., Федотов А.М., Юданов Ф.Н. Модель управления информационными ресурсами организации // Вестник НГУ. Сер.: Информац. технологии. – 2010. – Т. 8. – № 4. – С. 81–95.

7. Федотов А.М., Барахнин В.Б., Жижимов О.Л., Федотова О.А. Технология создания корпоративных информационных систем учета трудов научных работников // Вестник НГУ. Сер.: Информац. технологии. – 2011. – Т. 9, вып. 2. – С. 31–41.

8. Федотов А.М., Шокин Ю.И., Жижимов О.Л., Молородов Ю.И. Служба директорий LDAP как единая информационная среда // Открытое и дистанционное образование. – Томск, 2007. – № 4 (28). – С. 31–41.

9. Шокин Ю.И., Федотов А.М. К вопросу о развитии информационной инфраструктуры СО РАН // Вычислительные технологии. – Новосибирск, 2009. – Т. 6. – № 6. – С. 127–137.

10. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации. – Новосибирск: Наука, 2010. – 198 c.

Интегральная система ВИНИТИ РАН по информационному обеспечению научных исследований в области точных, естественных и технических наук: Концепция создания и перспективы развития

И.Ю. Никольская 15

Рассмотрен опыт проектирования и основные направления развития интегральной информационной системы (ИИС) ВИНИТИ РАН по точным, естественным и техническим наукам. Характеризуются информационные ресурсы, представленные в ИИС, поисковые возможности и средства их реализации. Показаны новые тематические фрагменты в составе ресурсного комплекса ИИС, обозначены пути формирования механизмов информационной навигации. Обосновывается необходимость дальнейшего развития классификационных систем по точным, естественным и техническим наукам и работы по совершенствованию рубрикаторов ВИНИТИ РАН, относящихся к этим областям научного знания.

На страницу:
2 из 3