bannerbannerbanner
Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
1 из 4

Жаклин Нолис, Эмили Робинсон

Data Science для карьериста

От Эмили для Майкла

и

от Жаклин для Хизер, Эмбер и Лауры

за любовь и поддержку, которую вы давали нам на всем этом пути

Переводчик А. Попова


© ООО Издательство "Питер", 2021

© 2020 by Emily Robinson and Jacqueline Nolis. All rights reserved.

© Перевод на русский язык ООО Издательство «Питер», 2021

© Издание на русском языке, оформление ООО Издательство «Питер», 2021

© Серия «Библиотека программиста», 2021

Предисловие

«Как мне устроиться на такую же работу, как у вас?»

Нам как опытным дата-сайентистам постоянно задают этот вопрос. Порой он звучит прямо, а в других случаях нас спрашивают о том, какие решения мы принимали в течение карьерного пути, чтобы оказаться на этом месте. На самом деле люди, задающие подобные вопросы, постоянно испытывают трудности, так как ресурсов, объясняющих, как встать на путь Data Science или расти профессионально в этом направлении, очень мало. Многие дата-сайентисты ищут помощь по вопросам карьеры, но зачастую не находят внятных ответов.

Хотя в блогах мы постили тактические советы о том, что делать в определенные моменты работы в Data Science (DS), мы также решили разобраться с отсутствием адекватного текста, описывающего весь карьерный путь в этой области от начала до конца. Эта книга призвана помочь тысячам людей, которые слышат о Data Science и о машинном обучении, но не знают, с чего начать, а также тем, кто уже занят в этой области и хочет понять, как продвинуться по карьерной лестнице.

Мы были рады возможности поучаствовать в создании этой книги. Нам обеим казалось, что наш опыт и точки зрения дополняли друг друга и помогли в написании лучшей книги для вас. Мы – это:

• Жаклин Нолис (Jacqueline Nolis). Я получила степень бакалавра и магистра математических наук, а также кандидатскую степень в области исследования операций. Когда я начинала работать, такого понятия, как Data Science (DS), еще не было, и мне пришлось выстраивать свой карьерный путь одновременно с попытками определения этой области. Теперь я работаю консультантом и помогаю компаниям растить команды, занимающиеся DS.

• Эмили Робинсон (Emily Robinson). Я получила степень бакалавра в области теории принятия решений и степень магистра менеджмента. Окончив трехмесячный курс по Data Science в 2016 году, я начала работать в этой сфере, специализируясь на A/B-тестировании. Сейчас я работаю старшим дата-сайтентистом в компании Warby Parker и занимаюсь некоторыми проектами компании.

На своем карьерном пути мы создавали портфолио проектов и испытывали стресс от адаптации на новой работе. Когда нас не брали на желаемую должность, нам было обидно. Когда наш анализ положительно влиял на бизнес, мы торжествовали. Мы сталкивались с проблемами, работая со сложными деловыми партнерами, и нам помогали наставники, оказывающие поддержку. Хотя этот опыт многому нас научил, истинная ценность заключается в том, чтобы делиться этим опытом с другими.

Цель этой книги – стать руководством по вопросам карьеры в области Data Science. Она описывает путь, который человек пройдет, работая в этом направлении. Мы начнем с азов: расскажем, как получить базовые навыки и понять, что на самом деле представляют собой направления работы в DS. Затем мы объясним, как эту работу получить и освоиться на новом месте. Расскажем, как вырасти в должности и в конечном итоге стать руководителем или уйти в другую компанию. Мы намерены сделать эту книгу ресурсом, к которому дата-сайентисты будут возвращаться на новых этапах своей карьеры.

Поскольку основное внимание в этой книге уделено карьере, мы решили не заострять внимание на технических аспектах Data Science. Мы не будем обсуждать выбор гиперпараметров модели или нюансы пакетов Python. Здесь не будет ни одного уравнения или строчки кода – мы знаем, что об этом уже написано множество замечательных книг. Мы же, напротив, хотели обсудить часто упускаемые из виду, но не менее важные нетехнические знания, которые нужны для достижения успеха.

Мы включили в эту книгу много подробностей из личного опыта уважаемых дата-сайентистов. В конце каждой главы вы найдете интервью с реальными специалистами. Они расскажут, как справлялись с трудностями, рассматриваемыми в главе. Мы были очень рады получить удивительные, подробные и откровенные ответы этих людей и считаем, что их примеры из жизни могут научить гораздо большему, чем любое заявление, которое мы могли бы написать.

При написании этой книги мы намеренно решили сосредоточиться на уроках, которые извлекли, будучи профессионалами в области Data Science, а также общаясь с другими членами сообщества. Иногда мы заявляем о чем-нибудь, с чем не все могут согласиться, например предлагаем всегда писать сопроводительное письмо при поиске работы. Мы решили, что поделиться мнениями, которые, на наш взгляд, будут полезными для дата-сайентистов, важнее, чем пытаться написать что-либо содержащее только объективные истины.

Мы надеемся, что эта книга станет для вас полезным руководством в построении карьеры в области Data Science. Когда мы сами были начинающими специалистами, нам не хватало такой книги. Зато теперь она есть у вас.

Благодарности

Прежде всего хотели бы поблагодарить наших супругов Майкла Берковица (Michael Berkowitz) и Хизер Нолис (Heather Nolis). Без них эта книга не появилась бы (не только потому, что Майкл писал первые черновики некоторых разделов, несмотря на то что он профессиональный игрок в бридж, а вовсе не дата-сайентист, и не потому, что Хизер стремилась заполнить половину книги контентом о машинном обучении).

Хотим поблагодарить сотрудников компании Manning, которые помогли нам пройти этот путь, улучшили книгу и вообще сделали ее выход возможным. Особая благодарность нашему редактору Карен Миллер (Karen Miller), которая помогала нам придерживаться графика и координировала работу.

Спасибо всем редакторам, которые читали рукопись на разных этапах и давали неоценимые подробные отзывы. Вот их имена: Бринджар Смари Бьярнасон (Brynjar Smári Bjarnason), Кристиан Таудал (Christian Thoudahl), Даниэль Берец (Daniel Berecz), Доменико Наппо (Domenico Nappo), Джефф Барто (Geoff Barto), Густаво Гомес (Gustavo Gomes), Хагай Люгер (Hagai Luger), Джеймс Риттер (James Ritter), Джефф Ньюман (Jeff Neumann), Джонатан Твадделл (Jonathan Twaddell), Кшиштоф Енджеевский (Krzysztof Jedrzejewski), Малгожата Родацка (Malgorzata Rodacka), Марио Гизель (Mario Giesel), Нараяна Лалитананд Сурампуди (Narayana Lalitanand Surampudi), Пин Чжао (Ping Zhao), Риккардо Маротти (Riccardo Marotti), Ричард Тобиас (Richard Tobias), Себастьян Пальма Мардонес (Sebastian Palma Mardones), Стив Сассман (Steve Sussman), Тони М. Дубицкий (Tony M. Dubitsky) и Юл Вильямс (Yul Williams). Спасибо также нашим друзьям и членам семьи, которые прочитали книгу и внесли свои предложения: Элин Фарнелл (Elin Farnell), Аманда Листон (Amanda Liston), Кристиан Рой (Christian Roy), Джонатан Гудман (Jonathan Goodman) и Эрик Робинсон (Eric Robinson). Ваш вклад помог оформить эту книгу и сделать ее максимально полезной для наших читателей.

Наконец, хотим поблагодарить всех, кто согласился дать нам интервью: Роберт Чанг (Robert Chang), Рэнди Ау (Randy Au), Джулия Силдж (Julia Silge), Дэвид Робинсон (David Robinson), Джесси Мостипак (Jesse Mostipak), Кристен Керер (Kristen Kehrer), Райан Уильямс (Ryan Williams), Брук Уотсон Мадубуонву (Brooke Watson Madubuonwu), Джарвис Миллер (Jarvis Miller), Хилари Паркер (Hilary Parker), Хизер Нолис (Heather Nolis), Сейд Сноуден-Акинтунде (Sade Snowden-Akintunde), Мишель Кейм (Michelle Keim), Рене Теате (Renee Teate), Аманда Касари (Amanda Casari) и Анджела Басса (Angela Bassa). Кроме того, мы благодарны тем, кто участвовал в создании примечаний на протяжении всей книги и предлагал вопросы для интервью в приложении: Вики Бойкис (Vicki Boykis), Родриго Фуэнтеальба Картес (Rodrigo Fuentealba Cartes), Густаво Коэльо (Gustavo Coelho), Эмили Барта (Emily Bartha), Трей Кози (Trey Causey), Элин Фарнелл (Elin Farnell), Джефф Аллен (Jeff Allen), Элизабет Хантер (Elizabeth Hunter), Сэм Бэрроуз (Sam Barrows), Решама Шейх (Reshama Shaikh), Габриэлла де Кьерос (Gabriela de Queiroz), Роб Штамм (Rob Stamm), Алекс Хейз (Alex Hayes), Людамила Джанда (Ludamila Janda), Аянти Дж. (Ayanthi G.), Аллан Батлер (Allan Butler), Хизер Нолис (Heather Nolis), Йерун Янссенс (Jeroen Janssens), Эмили Спан (Emily Spahn), Тереза Иофчиу (Tereza Iofciu), Бертил Хатт (Bertil Hatt), Райан Уильямс (Ryan Williams), Питер Болдридж (Peter Baldridge) и Хлинур Хадльгримссон (Hlynur Hallgrímsson). Все эти люди предоставили ценную информацию, и вместе они знают гораздо больше, чем мы.

О книге

Книга «Data Science для карьериста» поможет вам войти в сферу DS и стать профессионалом. В ней рассказывается том, кто такие дата-сайентисты, как получить необходимые навыки и какие шаги нужно предпринять, чтобы устроиться на работу. После трудоустройства эта книга поможет вам понять, как развиваться в своей должности и стать в итоге частью сообщества Data Science, а также дорасти до уровня старшего специалиста. Прочитав ее, вы станете уверенно смотреть на предстоящий карьерный путь.

Для кого эта книга

Эта книга предназначена для людей, которые еще не начали работать в Data Science, но в перспективе рассматривают такую возможность, а также для тех, кто только начал трудиться в этой сфере. Начинающие специалисты получат навыки, которые необходимы, чтобы стать дата-сайентистами, а джуниоры узнают, как повысить свою экспертность. Многие темы в книге вроде прохождения интервью и обсуждения оффера – это полезные ресурсы, к которым стоит возвращаться на любом этапе карьерного пути.

Структура книги

Эта книга разбита на четыре части, посвященные этапам, которые проходит начинающий дата-сайентист. В первой части книги, «Data Science. С чего начать», рассказывается о том, что такое DS и какие навыки нужны для работы в этой сфере:

• В главе 1 вы узнаете о функциях дата-сайентиста, а также о различных должностях с аналогичным названием.

• В главе 2 представлено пять примеров компаний, в которых трудятся дата-сайентисты, и показано, как культура и тип каждой из них влияют на работу.

• Глава 3 описывает различные пути, которые можно выбрать для получения важных для дата-сайентиста навыков.

• Из главы 4 вы узнаете, как создавать проекты и делиться ими для создания портфолио.

Во второй части книги, «Как попасть в Data Science», объясняется весь процесс поиска вакансий:

• В главе 5 рассказывается о поиске вакансий и о том, как понять, ради каких из них стоит стараться.

• В главе 6 мы расскажем, как написать сопроводительное письмо и составить резюме, а затем скорректировать их под каждую конкретную вакансию.

• В главе 7 подробно описывается, как проходит интервью и чего от него следует ожидать.

• Из главы 8 вы узнаете, что делать после того, как получен оффер, и как обсуждать его детали.

В третьей части, «Осваиваемся в Data Science», рассматриваются основные моменты первых месяцев работы:

• В главе 9 рассказывается о том, чего следует ожидать в первые несколько месяцев работы в Data Science, а также о том, как провести это время максимально продуктивно.

• В главе 10 рассматривается процесс проведения анализа, являющегося ключевым компонентом большинства должностей в Data Science.

• Глава 11 фокусируется на внедрении моделей машинного обучения, что является необходимым для специалистов, занимающих инженерные должности.

• В главе 12 объясняется, как общаться со стейкхолдерами, – дата-сайентисты занимаются этим чаще, чем большинство других технических специалистов.

В четвертой части, «Как подняться по карьерной лестнице в Data Science», рассматриваются темы для более опытных специалистов, которые ищут способ профессионально вырасти:

• Из главы 13 вы узнаете, что делать с неудавшимися проектами Data Science.

• В главе 14 показано, как стать частью более широкого сообщества дата-сайентистов с помощью участия в конференциях и разработки открытого исходного кода.

• Глава 15 представляет собой руководство по принятию сложного решения об уходе с должности специалиста Data Science.

• Глава 16 – заключительная; в ней рассказывается о должностях, которые могут получить дата-сайентисты по мере продвижения по карьерной лестнице.

Наконец, в приложении мы собрали для вас более 30 вопросов, которые можно услышать во время интервью, а также предложили примеры хороших ответов. Мы пояснили, какие навыки оцениваются при каждом вопросе и как на них лучше отвечать.

Если вы новичок в области Data Science, то начинайте читать с самого начала, а если вы уже работаете в этой сфере, то переходите сразу к той главе, которая предлагает решение вашей текущей задачи. Несмотря на то что последовательность глав соответствует развитию карьеры в этой сфере, их можно читать в произвольном порядке в соответствии с вашими потребностями.

В конце каждой главы – интервью со специалистами, занятыми в разных индустриях. Они рассказывают, как рассмотренные вопросы коснулись их в работе. Мы выбрали тех специалистов, которые внесли весомый вклад в развитие Data Science и которым пришлось пройти интересный путь прежде, чем стать профессионалами.

От издательства

Карьера в Data Science не зависит от страны, в которой вы живете и учитесь. Чтобы двигаться вперед, необходимо лучше понимать, чего от вас ждет работодатель или хедхантер.

Ваши замечания, предложения, вопросы отправляйте по адресу comp@piter.com (издательство «Питер», компьютерная редакция).

Мы будем рады узнать ваше мнение!

На веб-сайте издательства www.piter.com вы найдете подробную информацию о наших книгах.

Об авторах

Эмили Робинсон

Написала Жаклин Нолис


Эмили Робинсон – блестящий старший дата-сайентист в компании Warby Parker; ранее она работала в DataCamp и Etsy.

Впервые я встретила Эмили на Data Day Texas 2018, когда она была одной из немногих слушательниц моего доклада о Data Science в индустрии. В конце моего выступления она подняла руку и задала прекрасный вопрос. К моему удивлению, через час мы поменялись местами – теперь уже я слушала, как она спокойно проводила восхитительную презентацию, и с нетерпением ждала возможности поднять руку и задать ей вопрос. В тот день я уже поняла, какой она трудолюбивый и умный специалист. Несколько месяцев спустя, когда пришло время искать соавтора для моей книги, Эмили Робинсон была первым кандидатом в списке на эту роль. Отправляя ей электронное письмо, я думала, что мне, скорее всего, откажут: она, пожалуй, была «не моего уровня».

Работа с Эмили над этой книгой была сплошным удовольствием. Она очень заботится о трудностях младших специалистов по работе с данными, а еще у нее есть способность четко выделять важное. Она всегда качественно выполняет свою работу и каким-то образом умудряется одновременно писать статьи в блогах. Наблюдая за ней на других конференциях и общественных мероприятиях, я видела, как она общалась со многими дата-сайентистами, каждый из которых чувствовал себя с ней комфортно. Она также является экспертом в области A/B-тестирования и экспериментирования, хотя ясно, что для нее это просто временный этап. При желании она могла бы взять любую другую область DS и стать в ней экспертом.

Единственное, что меня расстраивает, так это то, что я пишу эти слова о ней на финальном этапе создания книги, и, как только мы закончим, возможность сотрудничать с Эмили появится уже у кого-то другого.

Жаклин Нолис

Написала Эмили Робинсон


Когда меня спрашивают о том, стоит ли писать книгу, я всегда отвечаю: «Только если у вас будет соавтор». Но это еще не все. Полный ответ должен быть таким: «Только если у вас будет такой же веселый, душевный, щедрый, умный, опытный и заботливый соавтор, как Жаклин». Я не знаю, каково писать книгу с «нормальным» соавтором, потому что Жаклин всегда была просто потрясающей, и мне невероятно повезло поработать с ней над этим проектом.

На фоне такого образованного человека, как Жаклин, вы запросто можете почувствовать себя неловко. У нее есть степень кандидата наук в промышленной инженерии и $100 000 за победу в третьем сезоне телевизионного реалити-шоу «Король ботанов». Жаклин работала директором по аналитике и основала собственное успешное консалтинговое агентство. Она выступает на конференциях по всей стране и регулярно получает приглашения от своей альма-матер приехать и провести карьерные консультации для студентов-математиков (ее специализация). Когда она выступает на онлайн-конференциях, ее забрасывают комплиментами вроде «это лучшее, что я когда-либо слышал», «превосходное выступление», «действительно полезно», «отличная живая презентация». Но Жаклин никогда не дает людям повода чувствовать себя недостойно или плохо из-за того, что они чего-то не знают; наоборот, она любит делать сложные понятия простыми, как, например, в ее презентации «Глубокое обучение – это нетрудно, даю слово».

Ее личная жизнь тоже впечатляет – у нее прекрасный яркий дом в Сиэттле, где она живет со своей подругой, сыном, двумя собаками и тремя кошками. Надеюсь, однажды она приютит соавтора, чтобы заполнить немного оставшегося места. Она со своей подругой Хизер даже провели презентацию перед аудиторией в тысячу человек об их опыте в использовании R для развертывания моделей машинного обучения в производство T-Mobile. А еще у них, пожалуй, самая милая история знакомства: они встретились на том самом шоу «Король ботанов», где Хизер также была участницей.

Я очень благодарна Жаклин за этот опыт, ведь она могла бы заработать гораздо больше, занимаясь чем-то гораздо менее утомительным, чем написание этой книги вместе со мной. Надеюсь, что наша работа подтолкнет начинающих дата-сайентистов стать частью сообщества людей, таких же прекрасных, как Жаклин.

Об обложке

Сен-Совер

Рисунок на обложке книги называется «Femme de l'Aragon», или «Арагонская женщина». Иллюстрация позаимствована из книги Жака Грассе де Сен-Совера (1757–1810) «Костюмы разных стран» (фр. Costumes de Différents Pays), изданной во Франции в 1797 году. Каждая иллюстрация тщательно прорисована и раскрашена вручную. Богатое разнообразие коллекции Сен-Совера ярко отражает то, насколько далекими в культурном плане были города и регионы еще каких-то 200 лет назад. Будучи изолированными, люди говорили на разных языках и диалектах. На улицах городов и деревень по одежде можно было легко определить статус человека, его место жительства и род занятий.

С тех пор манера одеваться сильно изменилась, а разница между регионами, ранее такая заметная, практически исчезла. Сегодня различать жителей разных континентов стало гораздо труднее, не говоря уже о разных городах, регионах или странах. Возможно, мы отказались от культурного многообразия в пользу более разносторонней личной жизни – и уж точно в пользу более разнообразной и быстрой технологической жизни.

В то время когда большинство книг о компьютерах так похожи, издательство Manning отмечает изобретательность и инициативность компьютерного бизнеса с помощью книжных обложек, основанных на богатом разнообразии жизни регионов двухсотлетней давности, оживающей благодаря иллюстрациям Грассе де Сен-Совера.

Часть 1

Data Science. С чего начать

Если вы загуглите «как стать специалистом Data Science», перед вами, скорее всего, появится обширный список, содержащий навыки от статистического моделирования до программирования на Python, а также информация об эффективном общении и проведении презентаций. В одной вакансии может описываться роль, схожая с ролью специалиста по статистике, в то время как другой работодатель ищет кого-то с дипломом магистра информатики. Интернет вам предложит различные варианты приобретения нужных навыков – от возвращения в университет на магистерскую программу до прохождения учебного курса или практики анализа данных на текущем месте работы. В совокупности все эти способы могут показаться непреодолимыми, особенно для тех, кто еще до конца даже не определился с решением стать дата-сайентистом.

Для вас есть хорошая новость: не существует ни одного специалиста по Data Science, который обладал бы всеми этими навыками. У дата-сайентистов есть общий фундамент знаний, но каждый из них специализируется в конкретной области, причем настолько, что многие не смогут поменяться обязанностями. Первая часть этой книги призвана помочь вам разобраться во всех этих специализациях и в том, как принимать наилучшие решения для старта вашей карьеры. К концу у вас будет понимание того, как начать поиск работы.

В главе 1 раскрываются основы работы в Data Science, включая описание необходимых навыков и различных специализаций. В главе 2 подробно рассказывается о роли дата-сайентиста и о пяти типах компаний – это поможет вам лучше понять, на что будет похожа реальная работа. В главе 3 описываются различные пути приобретения навыков, а также преимущества и недостатки каждого из них. Из главы 4 вы узнаете, как создать портфолио как для практического опыта, так и для потенциальных работодателей.

1. Что такое Data Science?

В этой главе

• Три основных направления Data Science.

• Разные типы должностей в области Data Science.


«Самая сексуальная работа XXI века», «Лучшая работа в Америке»… Дата-сайентист – должность, названия которой даже не существовало до 2008 года, теперь является одной из самых востребованных среди соискателей, а работодатели не могут найти достаточное число подобных сотрудников. У такого ажиотажа есть веская причина: Data Science – это быстро развивающаяся область, медианная базовая зарплата специалистов которой в США в 2019 году составила более $100 000 (http://mng.bz/XpMp). В хорошей компании дата-сайентисты пользуются большой автономией и постоянно изучают что-то новое. Они используют свои знания для решения серьезных задач: например, работают с врачами во время испытаний лекарственных препаратов, помогают спортивной команде в подборе новобранцев или изменяют модель ценообразования для бизнеса по производству виджетов. Наконец, в главе 3 мы поговорим о том, что универсального способа стать дата-сайентистом нет. В эту сферу приходят люди с разным образованием, поэтому вы не ограничены своей бакалаврской специальностью.

Однако не вся работа в сфере DS идеальна. И у компаний, и у соискателей бывают нереалистичные ожидания. Например, компании, плохо знакомые с Data Science, могут считать, будто один человек может решить все их задачи с помощью данных. Когда дата-сайентист наконец принят на работу в такую компанию, он сталкивается с бесконечным списком дел. Ему могут поручить немедленно внедрить систему машинного обучения, при том что никакие работы по подготовке или очистке данных предварительно не проводились. Иногда случается так, что никто не может ему помочь, направить или хотя бы посочувствовать при возникновении проблем. Мы поговорим об этом подробнее в главах 5 и 7, где расскажем, как не оказаться в не подходящих для новичка компаниях, а в главе 9 посоветуем, что делать, если вы попали в неприятную ситуацию.

С другой стороны, соискатели могут подумать, что им никогда не придется скучать. Они могут рассчитывать на то, что стейкхолдеры будут просто следовать их советам, дата-инженеры смогут в мгновение ока исправить любые проблемы с качеством данных, а сами они получат самые быстрые вычислительные ресурсы из возможных для реализации своих моделей. На самом деле дата-сайентисты тратят много времени на очистку и подготовку данных, а также на организацию работы с учетом ожиданий и приоритетов других команд. Проекты не всегда оказываются удачными. Высшее руководство может давать клиентам нереалистичные обещания о работе ваших моделей. Основные обязанности могут заключаться в работе с архаичной системой данных, которую невозможно автоматизировать, – каждую неделю она будет требовать многочасового монотонного труда только на их очистку. Дата-сайентисты могут обнаружить множество статистических или технических ошибок с серьезными последствиями в предыдущих расчетах, но они не будут никого интересовать. При этом специалисты настолько перегружены работой, что им просто некогда что-либо исправлять. Дата-сайентиста могут попросить подготовить отчеты, подтверждающие решение руководства, поэтому он может беспокоиться о том, что его уволят в случае, если он предоставит независимое мнение.

На страницу:
1 из 4