Полная версия
Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман
Краткое содержание книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман
Оригинальное название:
Big Data For Dummies
Авторы:
Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman
Правовую поддержку обеспечивает юридическая фирма AllMediaLaw
www.allmedialaw.ru
Кто владеет миром?
Кто владеет информацией, тот владеет миром. А если речь идет о целом океане информации? Этот океан ежедневно пополняется, изменяется, обновляется и устаревает, он содержит массу уникальных полезных сведений, и он относительно доступен. Но «видит око, да зуб неймет» – до недавнего времени принцип взаимодействия бизнеса с большими данными оставался примерно таким. Технологические возможности обработки Big Data не позволяли нормально структурировать и использовать в бизнес-целях столь колоссальные объемы информации.
Сейчас анализ больших данных стал неотъемлемым элементом работы компаний в самых разных сферах – от медицины до гостиничного бизнеса. При этом большие данные не единый рынок, а совокупность технологий управления информацией. И это не «еще одно хорошее решение, которое может оживить бизнес», – внедрение больших данных требует развитой инфраструктуры и четкого плана действий. Но игра стоит свеч: Big Data позволяет обеспечить максимальную эффективность и огромную экономию ресурсов: компании, идущие впереди, это доказали.
Как использовать потенциал Big Data на благо своему бизнесу? Саммари объясняет ключевые принципы работы с большими данными.
Что такое большие данные
Ежедневно мы производим огромное количество информации: посты в социальных сетях, отзывы на сайтах, фото- и видеозаписи, данные навигаторов, датчики оборудования… А распространение все более компактных и мощных мобильных устройств обещает, что в дальнейшем этот поток данных будет только увеличиваться. Мы уже научились искать нужную информацию в интернете, а вот анализировать разноплановые сведения из разных источников, да еще обращать этот анализ на пользу дела – навык будущего. Но работать над ним можно и нужно уже сегодня. Чрезвычайное разнообразие информации – и серьезная трудность, и серьезное преимущество.
Три ключевых параметра больших данных:
1) чрезвычайно большой объем;
2) чрезвычайно высокая скорость обработки;
3) чрезвычайное разнообразие.
Технология больших данных, которая сегодня выглядит столь современно и многообещающе, – не открытие последних лет, но результат полувекового развития принципов управления данными.
Как развивалась технология Big DataЭтап 1. Управляемые структуры. Технологии шагнули навстречу бизнесу в начале 1970-х, когда компания IBM занялась разработкой реляционных систем управления базами данных. Был разработан язык структурированных запросов (SQL) и специальные утилиты управления данными, позволившие кодировать информацию на высоком уровне абстракции (в таком виде работать с ней было гораздо проще). Однако хранение информации (а ее объем все увеличивался) и доступ к ней (по-прежнему медленный) оставались проблемой. Когда объем данных стало почти невозможно контролировать, программисты нашли выход, придумав хранилища данных. Их коммерческие версии появились в 1990-е годы и сразу стали востребованны: имея в хранилище данные за разные годы, компании лучше представляли свою работу, более гибко оперировали финансовой отчетностью, могли оценить перспективы. Следующим шагом стало создание объектно ориентированных[1] систем управления, обеспечивших единый подход к работе с разнородными данными.
Этап 2. Управляемая сеть. Интернет 1990-х в разы увеличил количество контента. Теперь требовались платформы, которые бы объединили инструменты работы с текстами, видео- и аудиоматериалами, изображениями. Распознавание информации и управление неструктурированными данными становилось все более насущной задачей. И такие платформы появились, а с ними пришла идея метаданных (обычным пользователям они известны как теги). Мир становился все виртуальнее. А выгоды, которые обещал этот новый мир, были вполне реальными.
Этап 3. Управление большими данными. Еще несколько лет назад компании вынуждены были довольствоваться выборками интересующей их информации – хранение и обработка данных были слишком дороги. Это сужало стратегические возможности бизнеса и казалось не таким уж выгодным делом. В 2000–2010 годы хранение и обработка информации удешевились в разы: компьютерная память становится все совершеннее, облачные сервисы все популярнее, виртуализация бизнес-среды все шире. При этом прежние идеи типа хранилищ данных не устарели – большие данные не сводятся лишь к одному инструменту, работать с ними – значит использовать достижения всех этапов развития этих технологий.
Типы данныхДанные могут быть структурированными и неструктурированными.
Структурированные данные имеют определенную длину и формат. Даты сделок, имена и адреса клиентов, данные GPS, сведения штрихкода на кассе супермаркета – все это структурированные данные. Представим себе, сколько товаров ежедневно проходит через кассы всех магазинов в мире – дух захватывает от такого объема данных! Эти данные генерируются и тогда, когда мы проходим по ссылке на любой сайт. Они помогают представить потребительские привычки, предсказывают наше поведение.
Это самый древний вид данных: ведущие учет товаров месопотамские писцы тоже имели дело с именами и адресами клиентов.
Неструктурированные данные не имеют определенного формата. Метеоданные и результаты спутниковой фотосъемки, измерения сейсмоактивности, записи с камер наблюдения и результаты опросов, наконец, привычные электронные письма и все наши «цифровые следы» (соцсети, онлайн-покупки, штрафы за превышение скорости) – это неструктурированные данные.
В среднем 80 % данных любого предприятия – неструктурированные. Настоящий клондайк для предприимчивых бизнесменов, не так ли? Между тем до последнего времени не существовало технологий, которые бы помогали работать с этим типом данных. Их можно было лишь анализировать вручную. Тем самым пропадали колоссальные возможности.
А сегодня? Вы набираете в поисковой строке желаемый товар, а через минуту контекстная реклама сама возникает в браузере. С точки зрения программиста, это типичный результат комплексного взаимодействия структурированных и неструктурированных данных. Более того, только их взаимодействие (и желательно в режиме реального времени) и имеет смысл в качестве бизнес-стратегии.
Бизнес больше не может работать с изолированными хранилищами информации – самые актуальные решения в этой области связаны с интеграцией данных. За это отвечают метаданные. Они обеспечивают кратчайший путь к искомой информации. Данные о банковском счете, содержащие собственно номер счета, а также имя и адрес клиента, – типичный пример метаданных. Теги, которыми мы маркируем посты в соцсетях, – тоже метаданные.
Специфика работы с данными
Специфика работы с данными определяется их типом. Данные могут быть:
♦ передаваемыми (их также называют данными в движении), они транслируются непосредственно в ходе производственного процесса – показания медицинских датчиков, приборы слежения;
♦ хранимыми (или данными в покое) – данные соцсетей, статистика продаж, переписка клиентов с кол-центрами.
Цикл работы с данными включает три этапа:
• сбор данных;
• систематизация;
• обобщение.
На первый взгляд, в этом списке нет того, чего бы не знал и специалист середины XX века. Конкретное же содержание работы, как будет показано далее, может быть очень специфическим и разнообразным. К тому же сегодня в этом цикле появилась четвертая характеристика:
• достоверность данных.
Большие данные – океан информации, который, однако, питается тысячами информационных ручейков и речушек. Реляционные базы данных[2], изобретенные в XX веке, имели дело с высокоструктурированными упорядоченными данными, связанными с определенным аспектом деятельности. Сегодня ситуация изменилась. Чтобы у компании сложилась реалистичная картина происходящего, собранные данные должны охватывать множество источников, часто неструктурированных.
Инфраструктура больших данных
В мире, где информации становится все больше, а ее источники – все разнообразнее, единственной эффективной стратегией работы сегодня остаются распределенные вычисления. Эта технология позволяет отдельным компьютерам, сколь угодно удаленным друг от друга, работать в качестве единой среды. Внедрение этой технологии привело в свое время к созданию интернета. В 1990-е Google, Yahoo! и Amazon увеличили бизнес-мощности, используя дешевеющее аппаратное обеспечение для хранения данных. А сегодня мы наблюдаем еще более тесное срастание технологий с бизнесом: ранее недоступные для анализа массивы информации становятся источником миллиардных доходов – первыми это поняли все те же Amazon, Google и Facebook. Но распределенные вычисления сейчас – лишь одна из составляющих инфраструктуры, которая обслуживает большие данные.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
Примечания
1
Объектно ориентированные системы управления базами данных – способ структурирования информации в базах данных в виде объектов, каждый из которых обладает определенными свойствами, состоянием и поведением. Объекты, обладающие одинаковыми свойствами, группируются в классы, а классы образуют иерархию наследования.
2
Реляционная база данных – совокупность связанной информации, представленной в виде двумерных таблиц. Строки таблицы никак не упорядочены, чтобы обеспечить максимальную гибкость работы с базой. Пользователи могут фильтровать и упорядочивать информацию по своему желанию. Столбцы при этом поименованы и пронумерованы .