bannerbanner
Эконометрические оценки. Учебное пособие
Эконометрические оценки. Учебное пособие

Полная версия

Эконометрические оценки. Учебное пособие

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
1 из 3

Эконометрические оценки

Учебное пособие


Валентин Юльевич Арьков

© Валентин Юльевич Арьков, 2021


ISBN 978-5-0055-3064-6

Создано в интеллектуальной издательской системе Ridero

Предисловие

Данное учебное пособие основано на серии лекций, прочитанных автором в дистанционном режиме. Видеозаписи лекций доступны на канале автора на Youtube. Ссылки на видеоролики имеются в конце данного пособия.

1. Введение

Наш предмет называется ЭКОНОМЕТРИКА. Существует эконометрика достаточно давно. На Западе – уже десятки лет преподаётся как самостоятельная дисциплина. В России эконометрика «появилась» лет двадцать-тридцать тому назад – как следование западной моде.

Смысл в том, что 30 лет назад это была какая-то абстрактная теория, непонятное ответвление статистики. На сегодняшний день это работающие программы и технологии. Когда мы слышим про загадочные «большие данные» – Big Data, про анализ больших данных или про науку о данных – Data Science – за этим скрывается то, что как раз и изучается в курсе «Эконометрика».

Мы с вами будем разбирать очень практические вещи. Соответственно, и в лекциях, и на лабораторных работах у вас будет именно практическая сторона материала.

Регрессия

Весь предмет эконометрики сводится к задаче регрессии.

У нас имеется некоторое количество данных, которые условно можно назвать «иксы» и «игреки». Их можно изобразить в виде точек. Это могут быть люди, станки, квартиры, предприятия, страны. Имеем массив числовых значений и точек на графике. По этим точкам нужно В СРЕДНЕМ провести какую-нибудь линию, см. рис.


Рис. Регрессия – линия в среднем по точкам


Это может быть прямая, или кривая, или даже ломаная.

Если нанести точки на плоском графике и нужно построить прямую линию, то достаточно приложить линейку и провести линию. Главное, что это должно в среднем. Это значит, что линия может вообще не пройти ни по одной точке. Она пройдет там, где густо. Там, где много точек.

Такая технология называется РЕГРЕССИЯ.

На занятиях по бизнес-аналитике и статистике мы с разных сторон рассмотрим историю и разберём данный раздел.

Буквально слово «регрессия» означает «движение назад». В большинстве случаев это действительно возвращение или противоположность прогрессу и т. п. – кроме нашей ситуации. В эконометрике и в статистике слово «регрессия» означает «провести по точкам подходящую линию». По сути это попытка получить очень упрощенную закономерность из большого количества данных.

Вспомним школьный курс математики и геометрии. Прямую линию можно провести только через две точки. Это математика.

В статистике и в эконометрике мы говорим по-другому. Чтобы провести прямую линию, нужно 100 точек, а лучше 1000, а ещё лучше 1000000. Наша линия пройдет по ним в среднем. Эта идея в самых разных видах и будет рассматриваться.

Электронная таблица

Самый простой инструмент, с которым мы будем работать, – это табличный редактор, или электронная таблица. Это может быть Microsoft Excel или любой другой подобный программный продукт. Существует множество программ, которые совместимы с Excel на уровне формата файла. Есть бесплатный продукт – Libre Office Calc. Это могут быть облачные средства, например, Таблицы Гугл – Google Sheets.

На экране мы видим столбец иксов и столбец игреков. На графике нанесены эти точки. Можно себе представить, что это люди разного роста и разного веса. Каждого человека измерили и взвесили.

Теперь мы хотим получить среднюю, общую закономерность. Если мы выберем людей с очень красивой фигурой и с очень хорошим здоровьем, тогда можно будет говорить про «формулу идеального веса», см. рис.


Рис. Линия регрессии в Excel


Предмет «Эконометрика» имеет некоторое отношение к экономике, к услугам, к товарам. Можно использовать знание таких закономерностей и для мониторинга здоровья сотрудников компании. Многие предприятия отправляют работников на регулярный медосмотр. При этом можно выяснить, у кого излишний вес, у кого нормальный, у кого недостаточный. Это может влиять на здоровье сотрудников, а значит, и на работу предприятия. Лучше потратить средства на поддержание здоровья, чем на лечение или срочную замену в самый неподходящий момент. Конечно, это будет важно для тех, кого интересует долгосрочное существование компании.

Другой пример. Пускай в качестве иксов у нас будет площадь квартиры, а по игреку – стоимость квартиры. Тогда мы можем рассматривать такую финансовую закономерность: сколько стоит квадратный метр в среднем и сколько может стоить конкретная квартира?

Есть множество таких ситуаций, где можно найти и использовать подобную зависимость. Хорошо, если есть всего один икс и один игрек. Это можно представить на плоскости. А если будет 20 иксов и 30 игреков? А если 120 иксов? Это на плоскости сложно изобразить – и от руки, и на компьютере.

Демонстрация

Разберем простую демонстрацию того, как выглядит регрессионный анализ.

Запускаем Excel.

Перед нами столбец иксов и столбец игреков.

Мы выделяем эти столбцы, выбираем Вставка – График — … Находим в серединке кнопочку «Точечная диаграмма». По-английски это называется Scatter Plot, по-русски – диаграмма разброса. У нас появилась картинка, см. рис.


Рис. Исходные данные и диаграмма разброса


Наши игреки начинаются не от нуля, поэтому мы настроим ось координат. Задаём минимальное значение 40, максимальное 110.

Нажимаем плюсик справа от диаграммы и добавляем «линию тренда». Вообще-то слово «тренд» означает «тенденция изменений, общее направление развития». Но в данном случае это просто общая закономерность. Мы говорим, что нас интересует прямая линия. На графике появляется прямая.

Мы хотели бы вывести уравнение этой линии на экран. Нажимаем More Options – Дополнительные параметры. Затем Display equation on chart – Вывести уравнение на график. Получаем уравнение нашей линии, см. рис.


Рис. Уравнение и линия регрессии


Это самый простой вариант: как мы можем в среднем по точкам провести линию. Естественно, здесь есть масса нюансов, масса тонкостей. Это самая общая идея того, что нам предстоит освоить.

У нас были условные иксы – рост человека в сантиметрах – и условные игреки – вес в килограммах. Мы получили формулу для среднего веса: нужно взять икс с коэффициентом 1,14 и отнять от него число 123. Для именно этого набора данных это будет средняя закономерность.

Примерно таким образом получают полезные советы для отрывных календарей и для книг по фитнесу. Хотите узнать свой идеальный вес? Возьмите свой рост и отнимите 100.

Чтобы получить такую формулу, нужно собрать людей с правильной фигурой и с хорошим здоровьем. Вот тогда можно будет вывести уравнение.

Итак, мы рассмотрели общую идею: нужно взять большое количество данных и по ним найти общую закономерность. Всё это называется словом «регрессия», и это слово просто означает «линия в среднем по точкам».

Мы строим линию – она называется «линия регрессии». Мы получаем уравнение этой линии – оно называется «уравнение регрессии».

В качестве упражнения вам предстоит повторить то, что было в этой демонстрации. Чтобы сгенерировать исходные данные, используйте формулы, показанные на рис.


Рис. Генерируем исходные данные


Вам нужно будет построить диаграмму разброса, потом добавить линию регрессии под названием «линия тренда». Затем нажать пару кнопочек, чтобы на экране появилось уравнение связи.

Интерпретация

Теперь по поводу полученного уравнения. Мы берем эту формулу и переводим ее на русский язык – выражаем её смысл словами. Чтобы узнать свой «идеальный» вес, возьмите рост и сделайте с ним то-то и то-то. Нужно умножить рост на что-то, а потом отнять что-то.

Это особое действие, которое выполняют в эконометрике. Это попытка перевести найденную закономерность на обычный разговорный язык. Называется он ИНТЕРПРЕТАЦИЯ уравнения регрессии. Слово «интерпретация» буквально означает «перевод с одного языка на другой». Здесь мы переводим с математического языка формул на человеческий, разговорный язык.

Предмет эконометрики

Наш предмет эконометрики находится на стыке нескольких дисциплин, нескольких областей деятельности. Можно обнаружить раздел «Эконометрика» в некоторых учебниках по экономической теории – обычно в самом конце. Кроме того, мы обнаруживаем очень похожий материал в курсе статистики. В математике тоже рассматриваются похожие задачи. Фактически, эконометрика находится на стыке трёх областей деятельности, трёх областей знания. На рисунке мы приводим такую схему:

– экономика;

– математика;

– статистика.


Рис. Место предмета эконометрики


На схеме мы показали другие пограничные области, которые находятся на стыке дисциплин.

Между экономикой и математикой находится математическая экономика – там изучаются математические модели экономических систем и явлений. Но они изучаются по большей части с точки зрения теории: как, в принципе, должна зависеть цена от спроса.

На стыке экономики и статистики находится так называемая экономическая статистика. Можно найти учебники, которые так и называются. Здесь обсуждается применение статистики для решения самых разных экономических задач.

Есть предмет статистики, который иногда называют «Общая теория статистики». Его тоже можно отдельно изучать.

Наконец, на границе между математикой и статистикой есть математическая статистика. Там будет много формул, много интегралов —очень тяжелый материал для тех, кто сдавал ЕГЭ.

Мы будем разбирать материал попроще и попонятней, потому что наша аудитория – специалисты по информатике. Такие работники используют готовые инструменты. Они внедряют готовые информационные системы (ИС) или, в лучшем случае, их настраивают.

Не все «информатики» занимаются разработкой и написанием программ. Чаще всего, речь идет о настройке, установки, обслуживании, сопровождении ИС. Это целая профессия.

В плане эконометрики у нас тоже есть готовые инструменты и требуется грамотно ими пользоваться. А если не нужно писать свою программу, которая будет строить линию по точкам, то работа с интегралами нам не особо потребуется. Но нам потребуется научиться грамотно нажимать некоторые кнопки и получать правильные графики. И, конечно, объяснять смысл полученных закономерностей.


Рис. Предмет эконометрики


Слово «эконометрика» состоит из нескольких частей, см. рис.

Первая часть «эконо-» намекает на экономику. Напомним, что экономика – это производство, обмен и потребление товаров и услуг. Конечно, есть и наука, которая изучает эту сторону нашей жизни. Это самое простое определение, которое можно обнаружить в любом словаре или энциклопедии. Это наша жизнь. Всё, что мы делаем. 90 процентов нашей жизни связано или с производством, или с потреблением чего-нибудь, или с посещением мест, где это можно купить или продать. даже если мы лежим на диване и смотрим телевизор, мы что-то потребляем – товар (диван) и услугу (телевизионную передачу, «контент»). Есть и другие ситуации, где не так много экономики, а просто общественные отношения.

Вторая часть – «метр» – в данном случае означает «измерить, выразить числами, количественно». Это модели с какими-то числовыми коэффициентами. Модели, в которых есть конкретные числа. Модели строятся по реальным данным.

Эти модели нужны для того, чтобы выяснить, какие взаимосвязи существуют и почему происходит то или иное событие. Почему люди посещают магазин в определённое время? Почему люди переходят из одной сотовой компании в другую? В какой момент клиенты собираются «сбежать»? Это описание и анализ текущей ситуации.

Кроме анализа, существует задача прогнозирования. Что будет дальше, если верить существующим данным? Какие прогнозы по развитию ситуации? Исходя из прогнозов, можно давать рекомендации. Вот эти клиенты собираются перейти к другому оператору. Чтобы их удержать, обычно помогает вот такой приём, такое особое предложение – для такой категории клиентов.

Другой пример. Обычно в такое-то время такая категория покупателей приобретает такой набор товаров. Эти товары часто находятся в одном чеке. Поэтому давайте эти вроде бы разные товары на соседних полочках поставим.

Есть много задач, где обработка больших массивов данных помогает что-то обнаружить и что-то улучшить, причём с небольшими затратами.

В отличие от экономической теории, здесь рассматриваются конкретные данные, числа, факты. В экономической теории описывают общие закономерности, а здесь мы смотрим на реальные события, причём в большом количестве. Всё это нужно для того, чтобы чем-то управлять, чтобы что-то улучшать и корректировать. Эта деятельность называется управление, или принятие решений.

Окончание слова «-ика» означает «наука или дисциплина, изучение чего-либо».

Эконометрика занимается построением моделей. Мы рассмотрели пример такой модели в виде уравнения, но в среднем.

Есть большое количество книг с названием эконометрика. Каждый год появляются новые книги. Есть они на русском языке, есть и на других языках. На английском языке издаются в огромном количестве. Каждый университет с большим удовольствием издаёт свой вариант этого материала.


Задание

Предлагаем выполнить одно несложное задание, чтобы сориентироваться в общей картине. Посмотрите, какие существуют на сегодняшний день онлайн-курсы – платные и бесплатные – на тему «Эконометрика», «Большие данные», «Наука о данных», «Data Science», «Программирование на языке Python».

Есть платформы для массовых открытых онлайн-курсов – МООК. Английское название: Massive Open Online Courses (MOOC). Есть и отдельные компании, которые на чём-то специализируются.

Посмотрите сколько предлагается таких курсов и сколько они стоят.

2. Инструменты

Мы переходим к следующей теме. Это инструменты анализа данных, см. рис.


Рис. Инструменты анализа данных


Следует отметить несколько вариантов.

Первый способ обработки данных – простой наглядный и не всегда удобный. Это электронные таблицы. Они существуют в самых разных видах, но мы будем, в основном, ориентироваться на Excel.

Существуют разные системы, языки программирования или среды того или иного уровня для обработки данных. Очень часто используются Python или язык R. Есть более специализированные инструменты, например Matlab, но это уже коммерческий, дорогой продукт.

Естественно, есть обычные языки программирования для работы с данными. Мы увидим, что в системах типа Python несколько удобней работать с данными.

Следующий момент – это варианты реализации программы, с которой мы работаем.

Чаще всего и привычней настольные, локальные варианты – Desktop Version.

При этом становится доступным всё больше облачных вариантов, когда мы можем работать через браузер. Здесь не всегда доступен полный функционал.

Наконец, есть варианты для мобильных устройств. Но чаще всего мобильные устройства – смартфоны и планшеты – не такие удобные, если требуется много печатать. Нужно подключать внешнюю клавиатуру. Кроме того, мобильные варианты приложений чаще всего ограничены по своим возможностям. Они подходят для определенных целей, например, чтобы посмотреть готовый график / отчёт или отсканировать QR-код.

Для дальнейшей работы нам понадобится так называемая надстройка «Анализ данных». Чтобы включить настройку, нужно перейти в меню Файл Настройки – Надстройки: File – Options – Add-ins – Excel Add-ins – Go – Analysis ToolPak, см. рис.


Рис. Включение надстройки


Теперь в верхнем меню появится надстройка – в разделе «Данные» – кнопка «Анализ данных», см. рис.


Рис. Вызов надстройки


Другой инструмент, который имеет очень похожие возможности – это Libre Office. Это бесплатный свободно распространяемый инструмент c открытым исходным кодом (Open Source). Как видим, у нас есть варианты для MS Windows, Linux и MacOS, см. рис.


Рис. Варианты Libre Office


Мы рекомендуем использовать английский вариант программных пакетов. К сожалению, перевод интерфейса часто оставляет желать лучшего и выполняется по остаточному принципу. В ряде случаев можно обнаружить половину интерфейса на русском, а половину на английском. Разработчики не успевают перевести – слишком быстро выходит новая версия программы. Перевод интерфейса и справочной системы очень часто делается чуть не автоматическим, машинным, программным путём, что отрицательно отражается на качестве.

В ряде случаев неудачный перевод может сбивать с толку и запутывать. Мы обнаруживаем английские слова, написанные русскими буквами. Конечно, это не помогает в изучении программ. Гораздо проще запомнить несколько английских слов, но при этом желательно узнать, как эти понятия грамотно называются по-русски. А для этого нужно знать теорию и читать учебники.

По поводу Libre Office надо отметить наличие так называемой Portable Version, см. рис. Это «переносимая» версия программы, которая не требует установки. Мы просто скачиваем архивный файл, разворачиваем его в отдельном каталоге и оттуда его запускаем на выполнение. Если он нас больше не интересует, мы удаляем этот каталог – и он не засоряет операционную систему.


Рис. Переносимая версия


Электронная таблица Libre Office Calc очень похожа на MS Excel – внешне и по возможностям. Есть совместимость на уровне формата файлов *.XLSX. По сути, мы встречаем здесь стандартный вид электронной таблицы. Может немного отличаться верхнее меню, но разобраться совсем несложно, см. рис.


Рис. Интерфейс Libre Office Calc


Что касается Python, у нас есть тоже два варианта. Первый вариант – скачать какой-нибудь пакет, например, Анаконда. Anaconda – это целый набор инструментов, см. рис.


Рис. Варианты пакета Anaconda


На сайте www.anaconda.com нас будет интересовать бесплатная версия Individual Edition для личного пользования.

После установки мы получаем первое окно – так называемый навигатор Anaconda Navigator. В рамках этого окна нас будет интересовать Jupyter Lab – лаборатория Юпитер. Здесь есть ещё Jupyter Notebook – Блокнот Юпитер, см. рис. Слово Юпитер здесь написано почти как название планеты, но с намёком на язык Питон.


Рис. Интерфейс Anaconda Navigator


Мы запускаем Jupyter Lab получаем новое окно браузера. При этом через браузер мы получаем доступ к своему локальному компьютеру. В строке адреса указан локальный компьютер localhost и номер порта, см. рис.


Рис. Среда Jupyter Lab


Мы получаем в окне браузера возможность работать с Jupyter Notebook – Блокнотом Юпитер. Нас интересует возможность работать в диалоге. Каждая ячейка блокнота – это одна или несколько строк кода. Мы можем запустить на выполнение любую ячейку блокнота в любом порядке и любое количество раз – и сразу видим результат выполнения.

Задание

Просмотрите статьи в Википедии про Anaconda и Jupyter Notebook на русском и английском языках. Обратите внимание, насколько различаются русский и английский варианты этих статей. Если есть трудности с английским, можно использовать Переводчик Google или включить автоматический переводчик, встроенный в браузер Google Chrome. Ознакомьтесь с расшифровкой названия Jupyter.

Задание

Скачайте и установите пакет Anaconda. Запустите Jupyter Lab. Создайте новый блокнот. Запустите программу «Hello, World».

Демонстрация Jupyter LAb

Запускаем Jupyter Lab. Создаём новый блокнот. Notebook – это страница с любым количеством строк. Появляется пустое окно. Есть разные варианты ячеек. Нас будет интересовать два вида. В кодовой ячейке Code пишем команды. В текстовой ячейке Markdown пишем текст. В нашем случае это будут просто заголовки. Markdown – это язык разметки текста, который позволяет украшать текст и вставлять формулы в формате LaTeX.

Вставляем символ «решётки» # и вводим название нашего первого упражнения. Напомним, что выражение «Hello, World» вообще-то переводится как «Всем привет». Перевод «Привет, мир» – это слишком дословно.

Нажимаем комбинацию клавиш [Shift+Enter]. Ячейка выполняется. Теперь у нас просто текст. Для редактирования можно дважды щёлкнуть по ячейке и внести исправления.

Обратим внимание, что первая ячейка имеет тип Markdown. Следующая ячейка автоматически получает тип кодовой Code.

Наша простая программа напечатает приветствие. Мы вводим команду print. Обратите внимание, что команда пишется маленькими буквами. Python различает заглавные и строчные буквы (большие и маленькие). Открываем круглую скобочку – автоматически появляется закрывающая скобка. Нажимаем кавычки – появляется закрывающая кавычка. Пишем сообщение. Нажимаем комбинацию клавиш [Ctrl+Enter]. В этом случае выполняется текущая ячейка, а новая ячейка не создаётся.

Система работает в режиме диалога. Можно загружать файлы и обрабатывать данные. Можно строить разнообразные графики.

Демонстрация Google Colab

Посмотрим в действии облачный сервис – очень простой и очень бесплатный. Называется он Google Colab – «ко-лаборатория», то есть совместная работа. Адрес в интернете:

https://colab.research.google.com

Единственное ограничение: нужно зайти со своей учётной записью Google. Для этого нужно зарегистрироваться на сайте Google. Подойдёт и учётная запись почты Gmail.

Интерфейс пользователя очень похож на предыдущий вариант, см. рис.


Рис. Интерфейс Google Colaboratory


Ко-лаборатория – это облачный сервис. Можно сказать, что это облачный блокнот Юпитер. Сам блокнот хранится на облачном диске Google Drive. Сюда можно закачивать файлы или скачивать их оттуда.

В верхней части окна отображается название файла. Расширение *.ipynb говорит о том, что в нём сохраняются не только команды, но и результаты выполнения, в том числе, графики. Такой файл можно посмотреть, не запуская его на выполнение, и увидеть, какие результаты были в прошлый раз. Можно также скачать только саму программу – файл с расширением *.py.

Интерфейс очень похож – тот же самый блокнот Юпитер. Точно также создаём ячейки с текстом или кодом, можем нажимать [Shift+Enter] и [Ctrl+Enter].

Мы запускаем этот самый инструмент под названием Колаб. Создаем новый блокнот и запускаем нашу «игрушечную» программу, которая говорит: «Всем привет!»

Мы можем при желании переименовать блокнот. Двойным щелчком начинаем редактирование названия. В начале работы, при первом запуске первой ячейки происходит соединение с виртуальной машиной, выделяются ресурсы на сайте Google. Для добавления текстовой ячейки нажимаем кнопку [+Text]. Значок «плюс» означает «добавить ячейку в блокнот». Для организации заголовка ставим символ «решетки» #. Одиночный знак решетки означает, что это главный заголовок – первого, верхнего уровня. Для удаления ячейки щёлкаем по ней и справа над ячейкой нажимаем кнопку с иконкой мусорного ведра.

На страницу:
1 из 3