bannerbanner
Базовая оценка минерализации. Ресурсный геолог
Базовая оценка минерализации. Ресурсный геолог

Полная версия

Базовая оценка минерализации. Ресурсный геолог

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
4 из 4

Отобразим графически все виды асимметрии по отдельности.


Гистограммы различных видов асимметрии


Диаграммы накопленной частоты будут выглядеть следующим образом.


Диаграммы накопленной частоты различных видов асимметрии


Сведем гистограммы на один график.


Гистограммы различных видов асимметрии


Кроме характеристики степени асимметрии, также существует характеристика того, насколько полученная гистограмма «острая» или «тупая».


Гистограммы различных видов асимметрии


Характеристика, которая позволяет судить о степени «резкости» или «экстремальности», носит название коэффициента эксцесса. На практике коэффициент эксцесса используется значительно реже, поэтому в настоящей главе его смысл подробно не раскрывается.

Виды распределений

Нормальное распределение

В статистике существуют некоторые «стандартные» типы распределений, одним из которых является так называемое «нормальное» распределение. Этому распределению соответствуют распределения многих «бытовых» величин: рост и вес определенной группы людей, во многих случаях – распределение ошибок измерения и т. д. Поскольку это распределение является широко распространенным, его параметры хорошо изучены. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю (точнее, неотличимы от нуля). Среднее арифметическое равно медиане.

Кроме того, для нормального закона существует так называемое «правило трех сигм», которое гласит, что:

– 68% значений находятся в пределах плюс-минус 1 стандартного отклонения от среднего значения;

– 95% значений находятся в пределах плюс-минус 2 стандартных отклонения от среднего значения;

– 99,7% значений находятся в пределах плюс-минус 3 стандартных отклонения от среднего значения.


Гистограммы различных видов асимметрии


Это правило позволяет не только находить интервал, куда наверняка попадут практически все значения интересующей нас переменной, но и искать значения вне этого интервала. Эти значения называют выбросами. Появление выбросов не является «запрещенным» с точки зрения нормального распределения, но их наличие маловероятно, а потому подозрительно. Это правило было бы хорошим инструментом для поиска ураганных содержаний, если бы не одно «но»: для его применения требуется, чтобы распределение было, во-первых, однородным, а, во-вторых, не противоречило нормальному закону распределения. Что, к сожалению, чаще всего не так (причем зачастую не выполняется ни первое, ни второе требование).


Логнормальное распределение

Кроме нормального распределения, также достаточно распространенным является так называемое логарифмически нормальное, или короче – логнормальное распределение: такое, при котором нормальному распределению не противоречат логарифмы значений изучаемой величины. Логнормальное распределение имеет правостороннюю асимметрию – то есть его среднее смещено по оси абсцисс вправо от медианы, а коэффициент асимметрии положителен.


Гистограмма логнормального распределения


При работе с распределением со значительной правой асимметрией (например, логарифмически нормальным распределением) гистограммы, построенные обычным образом – т. е. в «натуральных» единицах, весьма «ненаглядны». Не в том смысле, что прямо вот «глаз не отвести», а в том, что смотрю – и ничего не вижу. Что неудивительно: большинство наблюдений сгруппировано «слева» и попадает всего в несколько классов значений. Соответственно, гистограмма распределения с большой правой асимметрией выглядит, например, как-то так.


Гистограмма с правой асимметрией


В общем, не очень читаемая гистограмма. В этом случае необходимо выполнить симметризацию распределения. Так исторически сложилось, что наиболее часто встречаемым способом симметризации является логарифмирование значений. В принципе, симметризацию можно выполнить, например, с помощью корня – квадратного, кубического и т. д. Но логарифмирование обычно дает наиболее качественную симметризацию.

Итак, логарифм. Логарифм – это показатель степени, в которую надо возвести основание, чтобы получить число, которое подвергается логарифмированию. С первого раза непонятно (со второго – тоже не очень). Зато понятно, что логарифм – это штука, у которой есть основание. Уже хорошо. То есть у вас есть некоторое число, которое вы решили подвергнуть логарифмированию. Для этого надо выбрать основание логарифмирования. Основание – тоже число. То есть для логарифмирования надо два числа: одно – которое подвергается логарифмированию, а второе – основание логарифма. А на выходе имеем показатель степени, в которое надо возвести основание, чтобы получить число, которое под знаком логарифма. Давайте это запишем:

log2 (8)

Здесь написано: «логарифм 8 по основанию 2». Возвращаемся к определению. Результатом логарифмирования будет показатель степени, в которое надо возвести основание, чтобы получить число, подвергаемое логарифмированию. В приведенном примере мы логарифмируем 8 по основанию 2. В какую степень надо возвести 2 (основание), чтобы получить 8? Очевидно, в 3-ю. То есть:

log2 (8) = 3

Также, исходя из сказанного, совершенно очевидно, что:

log3 (9) = 2log5 (125) = 3log10 (10000) = 4

Ну и напоминаем, что

log3 (1) = 0log5 (1) = 0log78 (1) = 0

Или в общем случае

loga (1) = 0, a ≠ 0, a ≠ 1

Опять же, чисто исторически сложилось, что в качестве основания логарифма чаще всего принимается два числа – число «e» и 10. Логарифм по основанию «e» называют натуральным, а по основанию 10 – десятичным. Обычно натуральный логарифм обозначают

ln (a),

а десятичный

lg (a)

Давайте кратко рассмотрим два наиболее часто встречающихся основания логарифма. С десяткой «все ясно» – это основание нашей системы счисления и совершенно логично равно количеству пальцев на руках (если бы наша цивилизация была цивилизацией токарей-математиков, основанием системы счисления могло бы быть и 8, и 6 – в зависимости от удачливости токарей). А что такое «e»? Это такое очень интересное число, которое является одной из фундаментальных математических констант (наряду, например, с числом π) и всплывает в большом количестве реальных проблем. Если есть несколько минут времени, можно посмотреть вот этот9 ролик про число «e». Что еще можно сказать про «e»? Ну, например, то, что оно иррациональное – то есть не может быть вычислено как частное двух целых чисел. В десятичной записи оно имеет бесконечное число знаков после запятой. Также число «e» является трансцендентным – то есть не является корнем ни одного многочлена с целыми коэффициентами. Впрочем, этот факт уже совсем не относится к делу.

Возвращаясь к логарифмированию. Различия в основаниях в подавляющем большинстве случаев никак не сказывается на результате, поскольку для логарифмов действует довольно простое правило замены основания:

loga (b) = logc (b) / logc (a),

то есть для перехода от десятичного логарифма к натуральному результат надо разделить на константу – на натуральный логарифм 10:

lg (a) = ln (a) / ln (10)

Ну или в обратную сторону – от натурального к десятичному:

ln (a) = lg (a) / lg (e)

Поэтому когда речь идет о логарифмировании какой-то выборки, то основание особой роли не играет: любые результаты логарифмирования отличаются друг от друга на постоянный множитель, что не оказывает никакого влияния на характер распределения.

У логарифма есть одно чрезвычайно полезное свойство (правда, в плане обработки выборок, кажется, не применимое):

log (a * b) = log (a) + log (b)

То есть с помощью логарифмирования умножение сводится к значительно более простой операции сложения. И эта особенность логарифмов, например, дала возможность создать аналоговую вычислительную машину, хорошо знакомую «бумерам» – логарифмическую линейку10.

Ну и одно неприятное свойство логарифма: логарифм нуля не существует (а в выборках нули, увы, присутствуют).

Возвращаясь к нашим правоасимметричным выборкам. Представим, что в нашем распоряжении есть выборка11 с большой правой асимметрией (это не реальные данные, а сгенерированные для иллюстрации процедуры построения). Давайте построим по этой выборке сначала обычную гистограмму, потом – гистограмму в логарифмическом масштабе.

Для построения обычной гистограммы последовательно выполняем шаги:

– Определяем минимум, максимум и размах (Лист «Данные»).

– Задаем количество классов группировки и рассчитываем ширину класса (Лист «Данные»).

– Присваиваем каждому значению номер класса (Лист «Шаг 1 – обычный масштаб»).

– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – обычный масштаб»).

– Строим гистограмму в «натуральном» масштабе (Лист «Шаг 3 – обычный масштаб»).

В итоге получается что-то вот такое:


Гистограмма с правой асимметрией в натуральном масштабе


Как и предупреждали, наглядность полученного графика оставляет желать лучшего.

А теперь давайте построим гистограмму в логарифмическом масштабе. Последовательность действий точно такая же, кроме первого шага – данные необходимо логарифмировать:

– Логарифмируем данные. Пусть это будет натуральный логарифм – как сказано выше, основание логарифма не влияет на характер распределения (Лист «Лог. данные»).

– Определяем минимум, максимум и размах логарифмов (Лист «Лог. данные»).

– Задаем количество классов группировки и рассчитываем ширину класса по логарифмам (Лист «Лог. данные»).

– Присваиваем каждому значению номер класса (Лист «Шаг 1 – лог масштаб»).

– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – лог масштаб»).

– Строим гистограмму в логарифмическом масштабе (Лист «Шаг 3 – лог масштаб»).


Гистограмма с правой асимметрией в логарифмическом масштабе


Красивее же, правда? Необходимо отметить, что в реальной работе вам не придется выполнять все эти нудные операции – практически любое ПО, которым вы будете пользоваться, обладает способностью к построению гистограмм – как в натуральном, так и в логарифмическом масштабе. И переход между натуральным и логарифмическим масштабом обычно выполняется с помощью одной «галочки» в настройках графика. Но понимать, что именно произошло и как строить такую гистограмму, необходимо.

Суммируя: при построении логарифмической гистограммы вы работаете не с исходными данными, а с их логарифмами.

Вероятностный график

Следующий довольно полезный график  – это нормальный вероятностный график, он же вероятностная кривая, он же Probability Plot. Слово «нормальный» в названии довольно часто опускается. Кроме того, для распределений с положительной асимметрией имеет смысл предварительно выполнить симметризацию распределения с помощью логарифмирования – в этом случае слово «нормальный» в названии графика вовсе неуместно.


Вероятностная кривая и соответствующая ей гистограмма распределения


Вероятностный график позволяет визуально оценить однородность выборки, наличие выбросов (ураганных значений), близость исследуемого распределения нормальному (или в случае работы с логарифмами – логнормальному). По сути, вероятностный график – это квантиль-квантильная кривая, построенная по данным двух распределений: исследуемого и нормального. График обычно имеет вид некоторой ломаной кривой, либо серии точек.

По степени «прямоты» вероятностной кривой можно судить о близости рассматриваемого распределения нормальному закону, по наличии резких перегибов и относительно прямолинейных участков на графике – об однородности или неоднородности, а по наличию «срывов» и горизонтальных «ступенек» – о наличии выбросов.

В «докомпьютерную» эпоху для построения вероятностной кривой использовались специальные «вероятностные бланки». С появлением Excel потребность в подобных бланках отпала. Давайте рассмотрим алгоритм построения вероятностного графика на примере данного12 файла.

На листе «Выборки» с помощью генератора случайных чисел и формулы «НОРМ. ОБР» создаются две распределенные по нормальному закону выборки численностью по 10 000 значений каждая. На листе «Вероятностный график» выполняется объединение двух выборок и строится гистограмма. Для членов объединенной выборки рассчитывается их положение в упорядоченном ряду, для чего используется функция «РАНГ» (столбец «Ранг»).

По сути, результатом функции РАНГ является порядковый номер конкретного члена выборки в упорядоченном ряду. Будь наша выборка упорядочена, достаточно было бы пронумеровать члены итоговой выборки по порядку: «1-2-3…20000». Но выборка не упорядочена и нужна функция «РАНГ». Затем рассчитывается положение каждого члена исследуемой выборки как доля его порядкового номера от общей численности выборки (столбец «Положение члена выборки в долях численности распределения»).


Вероятностная кривая и соответствующая ей гистограмма: а – однородного симметричного распределения, близкого к нормальному, б – неоднородной выборки, представляющей собой объединение двух симметричных выборок, каждая из которых близка к нормальному распределению, в – однородной выборки с большой правой асимметрией, г – неоднородной выборки (интересно то, что обе сгенерированные выборки характеризуются правой асимметрией, которая при их смешении почти не видна)

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Примечания

1

https://stepik.org/course/176352

2

https://github.com/andrey-vyaltsev/ResourceGeologistBasic

3

https://t.me/resource_geologists

4

https://en.wikipedia.org/wiki/Percentile

5

https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.docx

6

https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.xlsx

7

https://docs.google.com/spreadsheets/d/1dlF4GKxsQ9DQZoPm1JBFQss3XLXqgl_j3h7qTTrEfJM

8

https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Single_variable_statistical_analysis.xlsx

9

https://www.youtube.com/watch?v=vB73Ynza-0o

10

https://en.wikipedia.org/wiki/Slide_rule

11

https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb

12

https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Probability_plot.xlsx

Конец ознакомительного фрагмента
Купить и скачать всю книгу
На страницу:
4 из 4