bannerbanner
Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации
Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации

Полная версия

Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
2 из 6

Машинное обучение

Итак, мы определились как со способом хранения данных, так и с причиной их преобразования в более удобный и компактный формат. Но остались вопросы: какова цель хранения данных, почему их не стоит удалять по прошествии длительного времени, зачем их бесконечно копить? Кратко на эти вопросы можно ответить так: собранные «большие данные» нужны для обучения машин. После прохождения такого обучения компьютеры способны прогнозировать параметры спроса, предлагать меры по улучшению продуктов и услуг, а также выдвигать идеи для построения новых стратегий по продажам. Наличие подобных обученных машин ведет к увеличению прибыли, снижению издержек производства, улучшению бизнес-процессов, и, как следствие всего этого, компания начинает теснить своих конкурентов.

Попробуем понять принцип машинного обучения с помощью небольшого примера. Предположим, в компьютер загрузили фотографии собаки. Затем машине сказали: «Это фотографии собаки». Компьютер запомнит такой образ собаки и само слово. Для контроля этих знаний надо провести экзамен – загрузить в машину фото другой собаки. И компьютер, используя созданную во время обучения логическую модель, скажет: «С вероятностью 95 % это похоже на собаку». Если тренирующий машину специалист будет удовлетворен таким уровнем точности ответа, он завершит обучение и сохранит текущее состояние машины в файл, чтобы воспользоваться им при необходимости в будущем. В этом файле натренированной модели машинного обучения находится логика определения собак по изображению на фотографии. При этом данную модель можно улучшить в будущем, переобучить: сделать ее более точной, используя больше изображений.

Готовая модель с созданной в процессе обучения логикой сохраняется в файл, в память компьютера. Это делается специально, чтобы в следующий раз, когда понадобится прогноз, не приходилось проводить обучение с самого нуля. Обратите внимание, что тренировка машины похожа на процесс обучения человека: чтобы получить качественное образование, необходимо выполнить как можно больше контрольных, пройти много тестов и сдать кучу экзаменов. В случае с изображениями собаки, для достижения более-менее уверенного распознавания потребуется показать машине тысячи фотографий с этими и другими животными. Такой процесс обучения может растянуться на несколько дней даже на мощных компьютерах. А вот само предсказание с помощью готовой модели занимает считанные доли секунды. И может осуществляться на ограниченных вычислительных ресурсах, даже на мобильных телефонах. При этом файл модели редко превышает размер в пару сотен мегабайт.

Часто можно услышать еще такие термины как «нейронное программирование» и «глубокое обучение» (с английского ”Deep Learning”). По сути, это способы построения логики, которые находятся под «капотом» у модели машинного обучения. Конечному пользователю готовой модели абсолютно все равно, как проводилось обучение: будь то «нейронное программирование», «дерево решений» или что-то связанное с «глубоким обучением». Главное, чтобы это была действительно обученная (натренированная) модель с хорошей предсказательной силой (высокой вероятностью верного ответа). А выбор методов по ее построению и тренировке – это задача специалистов. Ведь с точки зрения тех, кто использует готовые модели, все работает одинаково. Это как с автомобилями – они такие разные, но у всех у них есть педаль газа и тормоза. Поэтому, если услышите термины «нейронное программирование» и «глубокое обучение», знайте, что это все то же «машинное обучение».

Кто использует машинное обучение в бизнесе

Чтобы оценить необходимость использования машинного обучения в бизнесе, достаточно взглянуть на лидеров рынка, которые в подавляющем большинстве уже активно его применяют[2] и, по данным консалтинговой компании McKinsey & Company, делают это практически во всех возможных областях (от ретейла и туризма до фармакологии и электрогенерации) и почти в 4 раза чаще, чем остальные фирмы. Судя по такой существенной разнице, машинное обучение является одним из основных инструментов, которыми должна уметь пользоваться организация, если она стремится выбиться в лидеры.

По данным аналитиков, после внедрения машинного обучения у компаний в среднем себестоимость производства снижается на 10–20 %, а выручка растет на 5–10 % в зависимости от сферы деятельности. Это невероятная выгода. Поэтому почти 70 % лидеров рынка говорят о том, что машинное обучение является частью их стратегии и у них составлены многолетние корпоративные планы по его дальнейшему развитию.

Бытует мнение, что при внедрении машинного обучения придется нанимать много сотрудников для поддержания работы созданных систем. Но по статистике лишь 30 % компаний придется увеличить штат на 3 %. И только у 5 % – он вырастет на 10 %. При этом в фирмах, связанных с тяжелой промышленностью, общее количество сотрудников, наоборот, уменьшится на 3–10 %.

Цель цифровизации и сбора больших данных

Распознавание собак на фотографиях – это отличная функция. Но вряд ли с ее помощью можно создать несколько успешных бизнес-продуктов, которые принесут реальную прибыль. Поэтому давайте оставим этот пример и зададимся более глобальным вопросом: «Как за счет больших данных и машинного обучения увеличить прибыль компании или по крайней мере вывести ее на самоокупаемость?» В этом вопросе речь идет о двух совершенно разных состояниях бизнеса. Но они оба могут быть скорректированы, с одной стороны, благодаря аналитике и ее инструментам, с другой – за счет возможности предсказания будущего на основе больших данных. Разберем все по порядку.

Как заработать больше

Рассмотрим аналитический процесс (анализ больших бизнес-данных) с точки зрения обычного человека. В качестве примера возьмем продажи питьевых йогуртов. Для проведения анализа люди используют графики. Например, график зависимости средней прибыли компании от количества бутылок йогурта в одной проданной упаковке:



На таком графике любой человек с легкостью может найти самый высокий показатель и сделать вывод: «Если класть в упаковку по 5 йогуртов, чистая прибыль будет максимальной и составит 160 рублей за одну такую проданную упаковку». И это верное заключение, с одной лишь оговоркой. Двухмерный график строится тогда, когда все остальные параметры зафиксированы. Например, этот график справедлив при значении объема бутылки в 100 мл. Но как он поведет себя, если построить его исходя из разных объемов емкости? Давайте попробуем изобразить трехмерный вариант такого графика.



С изменением объема одной бутылки изменяется и чистая прибыль. Поэтому для получения максимальной выгоды надо найти на трехмерном графике наивысшую точку и определить уже два параметра: количество бутылок в упаковке и объем одной бутылки.

Рекомендую прямо сейчас зайти на сайт RealBigData.ru, который был создан специально для демонстрации идей, изложенных в этой книге. Там представлен этот трехмерный график в интерактивном формате, его можно «покрутить» и найти параметры точки максимума (координаты появляются при наведении курсора мыши).

Как можно заметить на трехмерном графике, вершина имеет значение в 230 рублей и находится в координатах «5 бутылок, 130 мл объема». Добавив лишь одну ось к предыдущему графику, мы смогли найти такие параметры товара, которые дали на 21 % больше прибыли! Чувствуете силу данных? Попробуем улучшить результат, увеличив количество осей…

На трехмерном графике любой из нас без особого труда может чисто визуально найти максимум. Такой несложный алгоритм поиска наивысшей прибыли может дать хорошие результаты. Но если на график добавить еще одну ось, то человеку будет уже очень трудно справиться с поставленной задачей по поиску параметров, определяющих максимум. Потому что он не может представить четырехмерное пространство. Получается, что такой визуальный способ не является ни универсальным, ни точным из-за невозможности с его помощью рассмотреть все переменные одновременно. Это приводит к тому, что питьевые йогурты будут продаваться не с максимально возможной прибылью. А в условиях конкурентного рынка недостающие проценты прибыли могут привести к банкротству. Какой вывод? С этого момента лучше прибегнуть к помощи компьютера.

Теперь попробуем провести анализ приведенных графиков с точки зрения машины. Компьютер не сможет изучать графики визуально, как это делаем мы, потому что у него нет глаз. Он поведет себя как незрячий человек, ощупает всю поверхность графика и таким образом разыщет максимум. На первый взгляд такой способ выглядит трудозатратным. Но представьте, что нужно предсказать чистую прибыль не по двум параметрам (количество бутылок и их объем), а по десяти:

1. Количество бутылок.

2. Объем одной бутылки.

3. Температура бутылки.

4. Толщина стенки бутылки.

5. Прочность крышки.

6. Время суток, когда была совершена продажа.

7. Размер скидки.

8. Возраст покупателя.

9. Пол покупателя.

10. Наличие шляпы на голове покупателя.

Для проведения анализа по этим данным придется строить не двух- или трехмерный график, а одиннадцатимерный (10 параметров + 1 ось – чистая прибыль как предсказываемая величина), представляющий собой одиннадцать перпендикулярных друг другу осей, выходящих из одной точки. Обычный смертный не может ни нарисовать такой график, ни визуально найти на нем максимум. А вот компьютеру даже не придется менять его подход: незрячая машина последовательно ощупает все оси, методично переберет все значения, сравнит результаты всех возможных комбинаций и в итоге выдаст ответ, при каких параметрах будет получена максимальная прибыль. Но для этого нужны большие данные, которые надо специально и тщательно собирать. И чем ответственнее компания подходит к этому процессу, а также к обработке данных, тем больше увеличит свою прибыль, повысит качество предлагаемого товара или услуги и тем сильнее снизит издержки в результате использования машинного интеллекта.

У вас могут возникнуть вопросы: «Погодите, каким образом связаны одиннадцатимерный график, на котором представлены различные параметры йогурта, и машинное обучение? В предыдущем примере компьютер обучали, показывая ему фотографии собак, а теперь кто, кого, чему и как учит? Как на этом сделать прибыль?» Чтобы ответить на них, надо разобрать данные, касающиеся параметров йогурта подробнее. Компания методично собирала эти данные, экспериментируя с размерами упаковки и продавая разные ее варианты в различных магазинах разным покупателям и в разное время. Несложно догадаться, что фирма не смогла бы проверить все возможные комбинации полученных данных, то есть перебрать все значения параметров, чтобы как можно точнее описать «изгибы» одиннадцатимерного графика и определить максимальные значения прибыли. В результате у них получился график с «пропусками», то есть с областями, в которых отсутствовали данные. К примеру, компании совсем не удалось получить информацию о продаже йогурта вечером покупателю в шляпе. Это не значит, что такой продажи не было или не могло бы быть. Просто именно для этого сочетания значений параметров нет данных. И как же в таком случае быть? Вот тут-то и вступает в дело «машинное обучение» или «искусственный интеллект».

Натренированную на данных машину можно попросить предсказать значение прибыли в точке пропуска на графике, то есть в области, для которой данные еще не были получены экспериментальным путем. В нашем случае запрос к машине на предсказание будет звучать так: «Сколько бы заработала компания, если бы продала йогурт покупателю в шляпе вечером?» В ответ компьютер выдаст нам точное число, полученное из имеющихся в распоряжении данных. Это произойдет невзирая на то, что в действительности подобная ситуация еще никогда не случалась. Так компания сэкономит значительные средства на проведении реальных экспериментов с разными типами упаковок йогурта и не только.

Заполнение машиной пропущенных значений на одиннадцатимерном графике отчасти можно сравнить с ремонтом лоскутного одеяла с помощью заплаток. Сначала изучают края дыры, определяют, какой формы заплатка требуется. Затем «пробел» латают. После этого график можно считать более-менее полным. Однако нужно понимать, что если дырки в графике слишком большие, то есть реальных данных очень мало, то предсказания будут неточными. Это как невозможно подобрать нужный лоскут для ремонта, если дыра огромного размера, иначе будет нарушен рисунок. В таком случае, увы, придется покупать новое одеяло. Поэтому никогда не выкидывайте данные, накапливайте их для обучения компьютеров. Чем больше данных, тем меньше потребность в заплатках. А значит, точнее предсказания.

Возможно, иллюстрация с йогуртом показалась кому-то из читателей несколько надуманной. Приведу реальный пример, касающийся больших данных, чтобы доказать, что это совсем не так. Обратимся к открытому соревнованию Concrete compressive strength[3], в рамках которого специалисты по данным должны были определить состав самого твердого бетона. Участникам предоставили частичную информацию, в которой содержались сведения относительно прочности образцов в зависимости от соотношения различных компонентов и параметров. Всего было шестнадцать переменных:

1. Количество цемента.

2. Количество доменного шлака.

3. Количество золы.

4. Количество воды.

5. Количество «суперпластификатора».

6. Плотность пластификатора.

7. Количество крупного заполнителя.

8. Количество мелкого заполнителя.

9. Количество компонента MixtureMeasurement9.

10. Количество компонента SSL9000.

11. Значение параметра O2_purityscore.

12. Количество компонента F192.

13. Оценка по шкале TysonScore.

14. Площадь бетона.

15. Возраст бетона.

16. Влажность бетона.

Производитель бетона собирал данные, изучая имеющиеся у него образцы, и пытался найти такое соотношение ингредиентов, при котором прочность была бы максимальной. Очевидно, что если бы компания решила действовать путем «перебора» всех возможных соотношений, то у нее не хватило бы ни денег, ни времени (продолжительности жизни сотрудников), чтобы протестировать все возможные комбинации. Для решения именно таких задач и предназначено машинное обучение. Созданный на основе собранных данных алгоритм способен предсказывать значения для «пробелов», благодаря чему можно получить результаты тех экспериментов, которые еще не проводились в реальности, то есть спрогнозировать будущее. К примеру, если компания-производитель бетона спросит: «Какова будет прочность, если использовать в два раза больше золы?», то машина ответит что-то вроде: «Прочность упадет на 26.7 %». Так фирма может проводить миллионы экспериментов в день, не тратя на это ни копейки. Действуя подобным образом, рано или поздно компания обязательно найдет лучшее соотношение компонентов для создания самого прочного и дешевого бетона.

Как вывести компанию из убытков

В предыдущих главах мы выяснили, как можно увеличить прибыль, используя большие данные и машинное обучение для предсказания результатов экспериментов. Но для того чтобы эти большие данные вообще появились и сохранялись в процессе каждого бизнес-процесса, необходимо специальным образом организовать все информационные потоки в компании. Самое время перейти к обсуждению масштабной и фундаментально важной для больших данных темы – цифровизации как комплекса действий, направленных на перевод львиной доли или всех процессов в организации с бумажных носителей в «цифру». Простыми словами, как всю ту информацию, которую раньше сотрудники компании записывали на бумаге, перенести в компьютеры.

На первый взгляд кажется, что цифровизация поможет «заработать больше» компаниям лишь в том случае, если они и так хорошо себя чувствуют и находятся «на плаву». Но это неверно. Благодаря цифровизации можно вытянуть убыточный бизнес на уровень самоокупаемости. К сожалению, многие руководители и топ-менеджеры за ежедневной рутиной и миллионом сиюминутных дел не видят этой возможности. При этом их конкурентами являются компании с молодыми собственниками, которые буквально весь бизнес строят в цифре, в принципе не используя бумажные документы. Они делают это с момента создания своей компании, потому что знают, что иначе не смогут минимизировать расходы и выйти на самоокупаемость. Современные фирмы поступают таким образом даже в том случае, если у них нет конкурентов на рынке и на текущий момент они являются монополистами. Эта цифровизация внедряется совершенно осознанно, методично и последовательно, если необходимо, то даже насаждается насильно, вопреки воле некоторых менеджеров и сотрудников. Потому что если не сделать этого сразу, в дальнейшем, когда на рынок придут конкуренты и начнут забирать часть прибыли, а дела у компании, соответственно, станут хуже, уже невозможно будет быстро переучить всех и перейти на «цифру».

Процесс цифровизации старых закостенелых компаний весьма болезненный, но при этом довольно прозрачный и понятный с простой последовательностью действий:

1. Находим ту работу, которую можно автоматизировать или роботизировать.

2. Пишем программу, делаем робота.

3. Переводим сотрудника, который раньше выполнял эту работу, на новую должность или, увы, расстаемся с ним.

Несмотря на то, что программы и роботы стоят недешево, им не нужна ежемесячная заработная плата. Они будут славно трудиться до тех пор, пока есть электричество и хотя бы один надзиратель-оператор, который изредка будет проверять их успехи.

Благодаря этой схеме высвобождаются финансы, которые раньше уходили на зарплаты сотрудникам. При этом не надо увольнять всех сразу, процесс довольно сильно растянут во времени. Цифровизация осуществляется небольшими порциями и на самых востребованных направлениях – тех, где она высвободит наибольшее количество денег. Она может не иметь четких рамок и часто привязывается к тем финансам, которые получилось сэкономить на предыдущем витке. Этот процесс напоминает снежный ком: чем больше машин внедряем в помощь человеку, тем больше экономим денег, тем больше машин сможем внедрить в будущем.

Основная проблема цифровизации с точки зрения финансов заключается лишь в том, что услуги программиста или специалиста по электронике стоят денег. И потребуется накопить стартовую сумму даже для проведения разовых работ (не говоря уже про периодические), которые зачастую просто необходимы.

Для наглядности рассмотрим несколько компаний, работающих в разных сферах. Их объединяет одно – полное отсутствие цифровизации и, как следствие, убыточность. При этом ситуацию можно «перевернуть», выявив и устранив имеющиеся болевые точки. Все описанные далее предложения реальны и эффективны. Вы можете использовать эти идеи для внедрения цифровизации в своей компании.

Гаражный кооператив

Каждое предприятие уникально. И цифровизация у всех проходит по-разному, затрагивая бизнес-процессы разного порядка. Конечно, выгода непосредственно зависит от глубины проработки, но то, что этот процесс окажет на компанию общее положительное влияние, это факт. Главное, что с каждым новым этапом выгода будет расти и уже никогда не даст задний ход.

В качестве первого примера рассмотрим расположенный в родном городе автора этой книги гаражный кооператив, членом которого он является. Упомянутый кооператив насчитывает несколько сотен гаражей. Каждые полгода бухгалтерия присылает своим клиентам платежки за услуги. До 2021 года они представляли собой специальные бумажные квитанции, в которых от руки заполнялись данные владельца, указывалась сумма задолженности и другая информация, после чего бухгалтер выдавала готовые документы каждому члену кооператива лично в руки, для этого планово приглашая всех по списку на персональную встречу.



На первый взгляд кажется, что это просто каменный век какой-то и оптимизация производственных процессов отсутствует у них напрочь. Однако это не так. Достаточно взглянуть на квитанцию. На маленькой бумажке напечатано слово «Квитанция», есть поля «ФИО», «Дата» и т. п. То есть данные слова бухгалтеру не надо писать от руки, что уже немного экономит его время и силы. Можно даже предположить, что кооперативу потребовалось бы нанять отдельного человека для этой работы, если бы названия полей не были напечатаны заранее. Ведь в кооперативе сотни гаражей, а значит, заполнение вручную нескольких дополнительных граф – это существенные временные затраты, требующие введения дополнительной штатной единицы. Таким образом, с одной стороны, кооперативом все же управляют довольно сознательные люди, которые ценят время как ресурс, но, с другой стороны, это далеко не все преобразования, которые можно провести. Что же дальше?

Совсем недавно бухгалтерия гаражного кооператива, после долгих споров и дебатов заинтересованных сторон и согласования со всеми директорами, все-таки удовлетворила дерзкую просьбу автора этой книги и начала присылать мне фотографии квитанций в мессенджере. Подобное решение избавляет меня от необходимости посещения бухгалтерии, а кооператив, в свою очередь, быстрее получает оплату. И это уже огромный шаг на пути к цифровизации, на который учреждение не потратило ни копейки.

Благодаря интернету бухгалтер за считанные секунды передает мне квитанцию. Ему теперь не надо тратить время на то, чтобы позвонить мне, согласовать время моего визита и, наконец, встретиться со мной. Я всегда увижу отправленное сообщение и произведу оплату. То есть одно небольшое решение избавило организацию от целого вороха проблем, связанных с выдачей квитанций. Уверен, что кооператив войдет во вкус и через несколько лет уже в принудительном порядке будет отправлять фото квитанций всем клиентам. Но давайте оценим всю выгоду, которую получит компания в результате такого решения. Очевидно, что, во-первых, можно будет уволить человека, который занимается обзвоном клиентов с целью согласования встречи для передачи квитанции. Поскольку кооператив насчитывает несколько сотен гаражей, наверняка один сотрудник постоянно «сидит» на телефоне, тренируя свой голосовой аппарат. Уволив бесполезного работника, организация сможет ежемесячно направлять его зарплату на что-то стоящее, например:

• Купить 2–3 камеры для системы видеонаблюдения.

• Развивать систему пожаротушения.

• Проводить модернизацию системы подачи воды.

• Осуществлять ремонт дороги.

Вы, конечно, можете возразить мне, что деньги, сэкономленные на зарплате одного сотрудника, – совсем небольшая сумма. Это верно. Однако не забывайте, что первый этап цифровизации производственного процесса был осуществлен совершенно бесплатно благодаря использованию популярных в народе мессенджеров. Затрат на реализацию идеи вообще не было. А в итоге кооператив получил свободные средства, которые, накапливаясь из месяца в месяц, потихоньку превращаются в существенную сумму.

Из зарплаты уволенного сотрудника логично сделать ежемесячно пополняемый фонд, средства из которого тратились бы только на проведение дальнейшей информатизации производства, точнее, на зарплату программиста, который писал бы на заказ необходимые программы. Речь идет не о ежемесячной выплате, а о сдельной оплате труда за конкретные проекты. Так как фонд пополняется постоянно, со временем денег хватит на проведение следующих этапов цифровизации. Надо лишь подождать, пока они накопятся. А мы тем временем давайте подумаем, что еще можно оптимизировать в гаражном кооперативе.

Первое, что бросается в глаза, – мне присылают фотографии бумажных квитанций, на которых от руки написаны ФИО и сумма задолженности. Очевидно, что эту работу способна выполнять машина. Вполне возможно написать программу, которая будет получать из бухгалтерии сумму задолженности и составлять документ в формате квитанции, заполняя нужные ФИО и сумму. С такой программой бухгалтеру вообще не нужно будет ничего писать от руки, достаточно лишь нажать на кнопку и распечатать квитанцию.

Конечно, за разработку подобной программы придется заплатить. Но это нужно будет сделать только один раз. И, кроме того, деньги на это пойдут из ежемесячно пополняемого фонда, созданного заранее. Если такая программа стоит больше, чем поступление за один месяц, нужно просто подождать несколько месяцев, чтобы скопить необходимую сумму. Главное, что программа пишется один раз и не требует постоянной зарплаты, в отличие от сотрудника. И рано или поздно, когда она заработает, кооператив начнет экономить. Бухгалтер больше не будет писать что-либо от руки, а значит, сохранит энергию и время для другой работы. Возможно, даже удастся сократить его рабочий день и перевести на полставки. Наверняка ежедневное заполнение квитанций для сотен клиентов гаражного кооператива занимало не один час, причем бессмысленного, не требующего высокой квалификации труда. Теперь же бухгалтер может просто распечатать все квитанции и тратить время только на их фотографирование и отправку в мессенджер.

На страницу:
2 из 6