ЗАРАБАТЫВАЙТЕ !!! на глобальных рынках. БЕСПЛАТНАЯ консультация - оставьте свой телефон сейчас

Корреляция (Correlation) - это

Корреляция - это статистическая взаимосвязь двух или нескольких случайных величин

Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс

Развернуть содержание
Корреляция - это, определение

Корреляция - это один из основных терминов теории вероятности, показывающий меру зависимости между двумя и более случайными величинами. Данная зависимость выражается через коэффициент корреляции. Коэффициент корреляции принимает значения от -1 до +1. Чем выше значение коэффициента корреляции, тем больше зависимость между величинами. Корреляция бывает положительной и отрицательной.

Зависимость между величинами
Зависимость между величинами

Корреляция - это статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение, либо коэффициент корреляции. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Графиком прямо пропорциональной зависимости величин
Графиком прямо пропорциональной зависимости величин

Корреляция - это понятие, которым отмечают связь между явлениями, если одно из них входит в число причин, определяющих другие, или если имеются общие причины, воздействующие на эти явления (функция является частным случаем корреляции); кореляция может быть более или менее тесной (т.е. зависимость одной величины от другой - более или менее ясно выраженной); число, показывающее степень тесноты корреляции, называется коэффициентом корреляции (это число заключено между -1 и 1).

Графиком обратно пропорциональной зависимости величин
Графиком обратно пропорциональной зависимости величин

Видео 16

Корреляция - это взаимная связь явлений, находящихся в известной зависимости друг от друга. Рост безработицы и количество уголовных преступлений находятся в прямой корреляции друг к другу.

График зависимости проекции скорости от времени для тела, движущегося вдоль оси времени
График зависимости проекции скорости от времени для тела, движущегося вдоль оси времени

Корреляция - это степень зависимости между двумя переменными. Линейная корреляция между двумя переменными х и у определяется знаком и величиной. Между двумя переменными существует положительная корреляция, если данная сумма положительна, и отрицательная корреляция, если сумма отрицательна. Степень корреляции измеряется коэффициентом корреляции r, который меняется от +1 до –1, достигая значения +1, когда х и у полностью положительно коррелируются между собой, и –1, когда х и у полностью отрицательно коррелируются между собой; если r = 0, х и у являются независимыми переменными. r не зависит от единиц измерения х и у.

График зависимости проекции ускорения от времени
График зависимости проекции ускорения от времени

Корреляция - это вероятностная или статистическая зависимость. В отличие от функциональной зависимости корреляция возникает тогда, когда зависимость одного из признаков от другого осложняется наличием ряда случайных факторов.

Путь, пройденный телом, численно равен площади под графиком функции
Путь, пройденный телом, численно равен площади под графиком функции

Корреляция - это статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Мерой корреляции двух случайных величин служит коэффициент корреляции.

Зависимость проекции перемещения от времени для тела
Зависимость проекции перемещения от времени для тела

Видео 5

Коэффициент корреляции - это математическая мера корреляции двух величин. Коэффициенты корреляции могут быть положительными и отрицательными. Если при увеличении значения одной величины происходит уменьшение значений другой величины, то их коэффициент корреляции отрицательный. В случае, когда увеличение значений первого объекта наблюдения приводит к увеличениям значения второго объекта, то можно говорить о положительном коэффициенте. Возможна еще одна ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин.

Полная положительная корреляция
Полная положительная корреляция

Коэффициент корреляции - это мера выражения тенденции роста одной переменной при увеличении другой. Его значения всегда находятся внутри диапазона -1; +1. Чем ближе значение переменной к -1 или 1, тем значительнее коррелируют между собой исследуемые величины. При К=0 можно говорить о полном отсутствии корреляции между наблюдаемыми величинами. Если К=-1 или К=1, то говорят уже о функциональной зависимости величин.

Полная отрицательная корреляция
Полная отрицательная корреляция

Коэффициент корреляции или парный коэффициент корреляции в теории вероятностей и статистике - это мера линейной зависимости двух случайных величин.

Визуализация различных значений коэффициента корреляции
Визуализация различных значений коэффициента корреляции

Коэффициент корреляции - это статистическая мера направления и степени линейной зависимости между двумя случайными переменными (меняется от -1 до +1). 

Корреляция количества нобелевских лауреатов от количества магазинов Икея
Корреляция количества нобелевских лауреатов от количества магазинов Икея

Коэффициент корреляции - это величина, характеризующая направление и силу связи между признаками. Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до + - 1.

Корреляция среднего количества однополых сексуальных партнеров от интеллекта
Корреляция среднего количества однополых сексуальных партнеров от интеллекта

Коэффициент корреляции - это статистический показатель, показывающий, насколько связаны между собой колебания значений двух других показателей. Например, насколько движение доходности ПИФа связано, перекликается (коррелирует) с движением индекса, выбранного для расчета коэффициента бета для этого ПИФа. Чем ближе значение коэффициента корреляции к 1, тем больше коррелируют ПИФ и индекс, а значит коэффициент бета и, следовательно, коэффициент альфа можно принимать к рассмотрению. Если значение этого коэффициента корреляции меньше 0,75, то указанные показатели бессмысленны.

Корреляция  религиозности от интеллекта
Корреляция религиозности от интеллекта

Коэффициент корреляции - это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1.

Корреляция количества пиратов и глобального потепления
Корреляция количества пиратов и глобального потепления

Сущность понятия корреляция

Термин "корреляция" впервые применил французский палеонтолог Ж. Кювье, который вывел "закон корреляции частей и органов животных" (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел в 1886 году английский биолог и статистик Френсис Гальтон (не просто связь - relation, а "как бы связь" - co-relation). Однако точную формулу для подсчёта коэффициента корреляции разработал его ученик - математик и биолог - Карл Пирсон (1857 - 1936).

Корреляционным называется исследование, проводимое для подтверждения или опровержения гипотезы о статистической связи между несколькими (двумя и более) переменными. В психологии переменными могут выступать психические свойства, процессы, состояния и др.

Карл Пирсон - математик и биолог - разработал точную формулу для подсчёта коэффициента корреляции
Карл Пирсон - математик и биолог - разработал точную формулу для подсчёта коэффициента корреляции

"Корреляция" в прямом переводе означает "соотношение". Если изменение одной переменной сопровождается изменением другой, то можно говорить о корреляции этих переменных. Наличие корреляции двух переменных ничего не говорит о причинно-следственных зависимостях между ними, но дает возможность выдвинуть такую гипотезу. Отсутствие же корреляции позволяет отвергнуть гипотезу опричинно-следственной связи переменных. Различают несколько интерпретаций наличия корреляционной связи между двумя измерениями:

1. Прямая корреляционная связь. Уровень одной переменной непосредственно соответствует уровню другой. Примером является закон Хика: скорость переработки информации пропорциональна логарифму от числа альтернатив. Другой пример: корреляция высокой личностной пластичности и склонности к смене социальных установок.

Уравнение зависимости перемещения от времени на каждом участке
Уравнение зависимости перемещения от времени на каждом участке

2. Корреляция, обусловленная третьей переменной. Две переменные (а, с) связаны одна с другой через третью (в), не измеренную в ходе исследования. По правилу транзитивности, если есть R (а, b) и R (b, с), то R (а, с). Примером подобной корреляции является установленный психологами США факт связи уровня интеллекта с уровнем доходов. Если бы такое исследование проводилось в сегодняшней России, то результаты были бы иными. Очевидно, все дело в структуре общества. Скорость опознания изображения при быстром предъявлении и словарный запас испытуемых также положительно коррелируют. Скрытой переменной, обусловливающей эту корреляцию, является общий интеллект.

Двухмерные диаграммы рассеяния используются для визуального исследования зависимости между двумя переменными X и Y
Двухмерные диаграммы рассеяния используются для визуального исследования зависимости между двумя переменными X и Y

3. Случайная корреляция, не обусловленная никакой переменной.

Если переменные сильно связаны, то множество точек данных принимает определенную форму
Если переменные сильно связаны, то множество точек данных принимает определенную форму

4. Корреляция, обусловленная неоднородностью выборки. Представим себе, что выборка, которую мы будем обследовать, состоит из двух однородных групп. Например, мы хотим выяснить, связана ли принадлежность к полу с уровнем экстраверсии. Считаем, что "измерение" пола трудностей не вызывает, экстраверсию же измеряем с помощью опросником Айзенка ETI-1. У нас две группы: мужчины-математики и женщины-журналистки. Не удивительно, если мы получим линейную зависимость между полом и уровнем экстраверсии - интроверсии: большинство мужчин будут интровертами, большинство женщин - экстравертами.

Подгонка функций к диаграммам рассеяния помогает увидеть зависимости между переменными
Подгонка функций к диаграммам рассеяния помогает увидеть зависимости между переменными

Корреляция рассматривается как признак, указывающий на взаимосвязь ряда числовых последовательностей. Иначе говоря, корреляция характеризует силу взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов xt и у, то такую корреляцию называют парной.

Видео 6

При поиске корреляционной зависимости обычно выявляется вероятная связь одной измеренной величины x (для какого-то ограниченного диа-пазона ее изменения, например от x1 до xn) с другой измеренной величиной у (также изменяющейся в каком-то интервале у1 ... yn). В таком случае мы будем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической (корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих случайных величин функцией, а другая - аргументом. Отыскание количественной зависимости между ними в форме конкретного аналитического выражения - это задача уже другого анализа, регрессионного. Статистический смысл термина значимость означает, что анализируемая зависимость проявляется сильнее, чем это можно было бы ожидать от чистой случайности.

Если переменные не связаны, то точки образуют «облако рассеяния»
Если переменные не связаны, то точки образуют «облако рассеяния»

Таким образом, корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями.

Строго говоря, принято различать два вида связи между числовыми совокупностями - это может быть функциональная зависимость или же статистическая (случайная). При наличии функциональной связи каждому значению воздействующего фактора (аргумента) соответствует строго определен-ная величина другого показателя (функции), т.е. изменение результативного признака всецело обусловлено действием факторного признака.

В примере высокая корреляция обусловлена наличием двух групп и не отражает действительный характер связи
В примере высокая корреляция обусловлена наличием двух групп и не отражает действительный характер связи

Аналитически функциональная зависимость представляется в следующем виде:

Аналитически функциональная зависимость
Аналитически функциональная зависимость

В случае статистической связи значению одного фактора соответствует какое-то приближенное значение исследуемого параметра, его точная величина является непредсказуемой, непрогнозируемой, поэтому получаемые показатели оказываются случайными величинами. Это значит, что изменение результативного признака у обусловлено влиянием факторного при-знака х лишь частично, т.к. возможно воздействие и иных факторов, вклад которых обозначен как s равно или меньше.

Видео 7

По своему характеру корреляционные связи - это соотносительные связи. Примером корреляционной связи показателей коммерческой деятельности является, например, зависимость сумм издержек обращения от объема товарооборота. В этой связи помимо факторного признака х (объема товарооборота) на результативный признак у (сумму издержек обращения) влияют и другие факторы, в том числе и неучтенные, порождающие вклад s.

Исследование диаграмм рассеяния позволяет определять формы зависимостей
Исследование диаграмм рассеяния позволяет определять формы зависимостей

Такая зависимость графически изображается в виде экспериментальных точек, образующих поле рассеяния, или, как принято говорить, поле корреляции. Следовательно, такие двумерные данные можно анализировать с использованием диаграммы рассеяния в координатах «х - у», которая дает визуальное представление о взаимосвязи исследуемых совокупностей.

Для количественной оценки существования связи между изучаемыми совокупностями случайных величин используется специальный статистический показатель - коэффициент корреляции r. Если предполагается, что эту связь можно описать линейным уравнением, то принято говорить о существовании линейной корреляции.

Линейное уравнение
Линейное уравнение

Видео 8

Корреляция (correlation) - это такой тип ассоциации одной переменной с другой,  при котором изменение  одной величины сопровождается изменением другой, то есть имеется сопутствующая вариация.  Корреляция  бывает положительной или отрицательной. Первая описывает ситуацию, в которой при увеличении одной переменной увеличивается и другая, а вторая - в которой переменные изменяются обратно пропорционально: одна увеличивается, а другая уменьшается.

Преимущество диаграмм рассеяния - позволяют находить «выбросы» (нетипичные данные)
Преимущество диаграмм рассеяния - позволяют находить «выбросы» (нетипичные данные)

Корреляция может измеряться статистически, коэффициентом корреляции или коэффициентом ассоциации, подобных форм существует множество. Большинство из них сосредоточено на линейной связи (изменение одной переменной прямо пропорционально изменению другой). В виде графика  идеальная связь означает прямую линию, соединяющую все точки. Коэффициенты  корреляции изобретены по существу как меры отклонения от этой линии. Криволинейная корреляция  означает нелинейное изменение переменных - темпы изменения одной быстрее, чем у другой. При отсутствии ассоциации говорят, что переменные имеют статистическую независимость.

Простая диаграмма рассеяния визуализирует зависимость между двумя переменными X и Y
Простая диаграмма рассеяния визуализирует зависимость между двумя переменными X и Y

Методика  корреляционного анализа  используется главным образом для данных интервального уровня, но тесты  существуют и для других уровней. Нахождение корреляции не подразумевает причинность. Между переменными иногда обнаруживаются фальшивые связи, поэтому нужны другие доказательства для обоснования вывода о влиянии одной переменной на другую. Нужно также помнить, что кажущаяся ассоциация  способна вызываться третьим фактором, систематически воздействующим на обе переменные. Если задействованы три или более переменных, применяются методы  многомерного анализа.

Составная диаграмма рассеяния включает несколько зависимостей
Составная диаграмма рассеяния включает несколько зависимостей

Корреляция и взаимосвязь величин

Качество корреляционной зависимости обратно пропорционально плотности точек (Один из постулатов Мэрфи). Исследование отдельных статистических объектов позволяет получить о них полезную информацию и описать их стандартными показателями. При этом изучаемую совокупность можно представить в виде ряда распределения путем ранжирования (в порядке возрастания или убывания анализи-руемого количественного признака), дать характеристику этой совокупности, указав центральные значения ряда (среднее арифметическое, медиана, мода), размах варьирования, форму кривой распределения. Такого рода сведения могут быть вполне достаточными в случаях, когда приходится иметь дело с одномерными данными (т.е. лишь с одной характеристикой, например, зарплатой) о каждой единице совокупности (скажем, о сотруднике фирмы).

Диаграмма рассеяния с двойной осью Y
Диаграмма рассеяния с двойной осью Y

Когда же мы анализируем двумерные данные (например, зарплата и образование), всегда есть возможность изучать каждое измерение по отдельности - как часть одномерной совокупности данных. Однако реальную отдачу можно получить лишь при совместном изучении обоих параметров. Основное назначение такого подхода - возможность выявления взаимосвязи между параметрами.

Следовательно, помимо традиционных измерений и последующих вычислений при анализе статистических данных приходится решать проблему и более высокого уровня - выявление функциональной зависимости между воздействующим фактором и регистрируемой (изучаемой) величиной.

Указанные ситуации весьма типичны в статистической практике, и в этом смысле аналитическая работа коммерсанта весьма богата такими примерами.

Диаграмма рассеяния позволяет наглядно изобразить частоты перекрывающихся точек для двух переменных
Диаграмма рассеяния позволяет наглядно изобразить частоты перекрывающихся точек для двух переменных

Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изображают уравнением регрессии. Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы: становление значимости связи между ними; возможность представления этой зависимости в форме математического выражения (уравнения регрессии).

Первый этап в указанном статистическом анализе касается выявления так называемой корреляции, или корреляционной зависимости.

Видео 9

Корреляцию и регрессию принято рассматривать как совокупный процесс статистического исследования, поэтому их использование в статистике часто именуют корреляционно-регрессионным анализом. Если между парами совокупностей просматривается вполне очевидная связь (ранее нами это исследовалось, есть публикации на данную тему и т.д.), то, минуястадию корреляции, можно сразу приступать к поиску уравнения регрессии.

На графиках квантилей изображается зависимость между квантилями двух переменных
На графиках квантилей изображается зависимость между квантилями двух переменных

Если же исследования касаются какого-то нового процесса, ранее не изучавшегося, то наличие связи между совокупностями является предметом специального поиска. При этом условно можно выделить методы, которые позволяют оценить наличие связи качественно, и методы, дающие количественные оценки. Чтобы выявить наличие качественной корреляционной связи между двумя исследуемыми числовыми наборами экспериментальных данных, существуют различные методы, которые принято называть элементарными. Ими могут быть приемы, основанные на следующих операциях: параллельном сопоставлении рядов; построении корреляционной и групповой таблиц; графическом изображении с помощью поля корреляции.

Диаграмма Вороного - диаграмма рассеяния одной переменной является в большей степени аналитическим средством
Диаграмма Вороного - диаграмма рассеяния одной переменной является в большей степени аналитическим средством

Другой метод, более сложный и статистически надежный, - это количественная оценка связи посредством расчета коэффициента корреляции и его статистической проверки. Познакомимся со способом оценки корреляционной связи посредством расчета коэффициента корреляции, рассмотрев конкретный пример.

Пусть у нас имеются n серии значений двух параметров X и Y:

Значение параметров Х и У
Значение параметров Х и У

Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами. Как известно, случайные величины X и Y могут быть либо зависимыми, либо независимыми. Существуют следующие формы зависимости - функциональная и статистическая. В математике функциональной зависимостью переменной Y от переменной Х называют зависимость, где каждому допустимому значению X ставится в соответствие по определенному правилу единственно возможное значение Y.

Функциональная зависимость переменной Y от переменной Х
Функциональная зависимость переменной Y от переменной Х

Диаграмма рассеяния с гистограммами - представляет собой составной график с зависимостью между двумя переменными и распределениями частот для каждой переменной
Диаграмма рассеяния с гистограммами - представляет собой составной график с зависимостью между двумя переменными и распределениями частот для каждой переменной

Однако, если X и Y случайные величины, то между ними может существовать зависимость иного рода, называемая статистической. Дело в том, что на формирование значений случайных величин X и Y оказывают влияние различные факторы. Под воздействием этих факторов и формируются конкретные значения X и Y. Допустим, что на Х и У влияют одни те же факторы, например Z1, Z2, Z3, тогда X и Y находятся в полном соответствии друг с другом и связаны функционально. Предположим теперь, что на X воздействуют факторы Z1, Z2, Z3, а на только Y и Z1, Z2. Обе величины и X и Y являются случайными, но так как имеются общие факторы Z1 и Z2, оказывающие влияние и на X и на Y, то значения X и Y обязательно будут взаимосвязаны. И связь это уже не будет функциональной: фактор Z3, влияющий лишь на одну из случайных величин, разрушает прямую (функциональную) зависимость между значениями X и Y, принимаемыми в одном и том же испытании. Связь носит вероятностный случайный характер, в численном выражении меняясь, от испытания к испытанию, но эта связь определенно присутствует и называется статистической. При этом каждому значению X может соответствовать не одно значение Y, как при функциональной зависимости, а целое множество значений.

Диаграмма рассеяния с диаграммой размаха - представляет собой составной график с зависимостью между двумя переменными и распределениями значений каждой из двух выборок
Диаграмма рассеяния с диаграммой размаха - представляет собой составной график с зависимостью между двумя переменными и распределениями значений каждой из двух выборок

Определение. Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой.

Определение. Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной. Сами случайные величины, связанные коррреляционной зависимостью, оказываются коррелированными.

Примерами коррреляционной зависимости являются: зависимость массы от роста:

- каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних, большему значению роста соответствует и большее значение массы - в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу;

Нормальный вероятностный график для нормальной переменной
Нормальный вероятностный график для нормальной переменной

- зависимость заболеваемости от воздействия внешних факторов, например, запыленности, уровня радиации, солнечной активности и т.д.;

- количество (X) вводимого объекту препарата и его концентрация в крови (Y);

Нормальный вероятностный график для не нормально распределенной переменной
Нормальный вероятностный график для не нормально распределенной переменной

- между показателями уровня жизни населения и процентом смертности;

- между количеством пропущенных студентами лекций и оценкой на экзамене.

Полунормальный вероятностный график для нормальной переменной
Полунормальный вероятностный график для нормальной переменной

Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей. Корреляционную зависимость Y от X можно описать с помощью уравнения вида:

Корреляционная зависимость Y от X
Корреляционная зависимость Y от X

Уравнение называется выборочным уравнением регрессии Y на X. Функцию f(x) называют выборочной регрессией Y на X, а ее график - выборочной линией регрессии Y на X. Совершенно аналогично выборочным уравнением регрессии X на Y является уравнение: 

Уравнение, аналогично выборочным уравнением регрессии X на Y
Уравнение, аналогично выборочным уравнением регрессии X на Y

 

В зависимости от вида уравнения регрессии и формы соответствующей линии регрессии определяют форму корреляционнной зависимости между рассматриваемыми величинами - линейной, квадратической, показательной, экспоненциальной. Важнейшим является вопрос выбора вида функции регрессии f(x) или ф(y), например линейная или нелинейная (показательная, логарифимическая и т.д.) На практике вид функции регрессии можно определить, построив на координатной плоскости множество точек, соответствующих всем имеющимся парам наблюдений (x;y).

Линейная регрессия значима. Модель Y=a+bX
Линейная регрессия значима. Модель Y=a bX

Линейная регрессия незначима
Линейная регрессия незначима

Линейная регрессия значима. Нелинейная модель (y=ax2+bx+c)
Линейная регрессия значима. Нелинейная модель (y=ax2 bx c)

Например, на графике 1 видна тенденция роста значений Y с ростом X, при этом средние значения Y располагается визуально на прямой. Имеет смысл использовать линейную модель (вид зависимости Y от X принято называть моделью) зависимости Y от X. На графике 2 средние значения Y не зависят от x, следовательно линейная регрессия незначима (функция регрессии постоянна и равна ). На графике 3 прослеживается тенденция нелинейности модели.

Видео 10

Две случайные величины X и У называют коррелированными, если их корреляционный момент (или, что то же, коэффициент корреляции) отличен от нуля; X и У называют некоррелированными величинами, если их корреляционный момент равен нулю. Две коррелированные величины также и зависимы. Действительно, допустив противное, мы должны заключить, что:

Две коррелированные величины также и зависимы
Две коррелированные величины также и зависимы

Обратное предположение не всегда имеет место, т. е. если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными. Другими словами, корреляционный момент двух зависимых величин может быть не равен нулю, но может и равняться нулю. Убедимся на примере, что две зависимые величины могут быть некоррелированными.

Пример. Двумерная случайная величина (X, Y) задана плотностью распределения:

Начальные условия примера
Начальные условия примера

Доказать, что X и Y - зависимые некоррелированные величины.

Решение. Воспользуемся ранее вычисленными плотностями распределения составляющих X и Y:

Решение примера
Решение примера

Внутренний интеграл равен нулю (подынтегральная функция нечетна, пределы интегрирования симметричны относительно начала координат), следовательно:

Случайные величины X и Y некоррелированы
Случайные величины X и Y некоррелированы

Итак, из коррелнрованности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность. Из независимости двух величин следует их некоррелированность, но из некоррелированности еще нельзя заключить о независимости этих величин. Заметим, однако, что из некоррелированности нормально распределенных величин вытекает их независимость. Это утверждение будет доказано в следующем параграфе.

Нормально вероятностный график для не нормально распределенной переменной
Нормально вероятностный график для не нормально распределенной переменной

Виды корреляции

Виды корреляционной связи между измеренными переменными могут быть различны: так корреляция бывает линейной и нелинейной, положительной и отрицательной. Она линейна, если с увеличением или уменьшением одной переменной, вторая переменная также растёт, либо убывает. Она нелинейна, если при увеличении одной величины характер изменения второй не линеен, а описывается другими законами (полиномиальная, гиперболическая).

Если повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Чем выше личностная тревожность, тем больше риск заболеть язвой желудка. Возрастание громкости звука сопровождается ощущением повышения его тона.

Положительная линейная корреляция
Положительная линейная корреляция

Если рост уровня одной переменной сопровождается снижением уровня другой, то мы имеем дело с отрицательной корреляцией. По данным Зайонца, число детей в семье отрицательно коррелирует с уровнем их интеллекта. Чем боязливей особь, тем меньше у нее шансов занять доминирующее положение в группе. Нулевой называется корреляция при отсутствии связи переменных.

Видео 11

В психологии практически нет примеров строго линейных связей (положительных или отрицательных). Большинство связей - нелинейные. Классический пример нелинейной зависимости - закон Йеркса-Додсона:. возрастание мотивации первоначально повышает эффективность научения , а затем наступает снижение продуктивности (эффект "перемотивации"). Другим примером является связь между уровнем мотивации достижений и выбором задач различной трудности. Лица, мотивированные надеждой на успех, предпочитают задания среднего диапазона трудности - частота выборов на шкале трудности описывается колоколообразной кривой.

Графики видов корреляции
Графики видов корреляции

Примеры распределений испытуемых в пространстве двух признаков: а) строгая положительная корреляция, б) сильная положительная корреляция, в) слабая положительная корреляция, г) нулевая корреляция, д) отрицательная корреляция, е) строгая отрицательная корреляция, ж) нелинейная корреляция, з) нелинейная корреляция.

       Отрицательная и положительная корреляция

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.

Отрицательная, положительная и нулевая корреляция
Отрицательная, положительная и нулевая корреляция

Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени. Рассмотрим следующую задачу. Была проведена серия измерений двух случайных величин X и Y, причем измерения проводились попарно: т.е. за одно измерение мы получали два значения - xi и yi . Имея выборку, состоящую из пар (xi , yi ), мы хотим определить, имеется ли между этими двумя переменными зависимость.

Видео 12

Зависимость между случайными величинами может иметь функциональный характер, т.е. быть строгим функциональным отношением, связывающим их значения. Однако при обработке экспериментальных данных гораздо чаще встречаются зависимости другого рода: статистические зависимости. Различие между двумя видами зависимостей состоит в том, что функциональная зависимость устанавливает строгую взаимосвязь между переменными, а статистическая зависимость лишь говорит о том, что распределение случайной величины Y зависит от того, какое значение принимает случайная величина X.

Отрицательная линейная корреляция
Отрицательная линейная корреляция

Отрицательная корреляция - это вид корреляционной зависимости между случайными величинами, при к-рой условные средние значения одной из них уменьшаются при возрастании значений другой величины. Об отрицательной корреляции между величинами с корреляции коэффициентомr говорят в том случае, когда p меньше0.

Связь между двумя переменными может быть следующей - когда значения одной переменной убывают, значения другой возрастают. Это и показывает отрицательный коэффициент корреляции. Про такие переменные говорят, что они отрицательно коррелированы.

Отсутствие корреляции
Отсутствие корреляции

Примером отрицательной корреляции может быть взаимосвязь между бесполезно потраченным временем и средним баллом. Бесполезно потраченное время можно операционально определить как количество часов в неделю, потраченное на определенные занятия, например на игру в видеоигры, просмотр телесериалов или игру в гольф (конечно, эти виды! деятельности можно назвать и «терапией»). Ниже приведены гипотетические данные для других восьми студентов. На этот раз вы увидите обратную взаимосвязь между количеством часов в неделю, потраченных впустую, и средним баллом:

Нелинейная корреляция
Нелинейная корреляция

Взаимосвязь между временем, посвященным занятиям, и оценками является примером положительной корреляции. Приведенные ниже данные, полученные в ходе гипотетического исследования восьми студентов, говорят о наличии положительной корреляции. В данном случае первой переменной является время, операционально определенное как количество часов в неделю, потраченных на учебу, а второй - средний балл (СБ), варьирующийся от 0,0 до 4,0.

Исходные данные для примера по положительной корреляции
Исходные данные для примера по положительной корреляции

Значительное время, потраченное на учебу (42 часа), связано с высоким средним баллом (3,3), а самое малое время (16 часов) - с низким баллом (1,9).

Примером отрицательной корреляции может быть взаимосвязь между бесполезно потраченным временем и средним баллом. Бесполезно потраченное время можно операционально определить как количество часов в неделю, потраченное на определенные занятия, например на игру в видеоигры, просмотр телесериалов или игру в гольф (конечно, эти виды! деятельности можно назвать и «терапией»). Ниже приведены гипотетические данные для других восьми студентов. На этот раз вы увидите обратную взаимосвязь между количеством часов в неделю, потраченных впустую, и средним баллом:

Обратная зависимость данных  - пример для положительной корреляции
Обратная зависимость данных - пример для положительной корреляции

Обратите внимание, что при отрицательной корреляции переменные имеют обратную взаимосвязь: большое количество потраченного зря времени (42) связано с низким средним баллом (1,8), а небольшое (16) - с более высоким (3,7).

Видео 13

Силу корреляции показывает особая величина описательной статистики, носящая название «коэффициент корреляции». Коэффициент корреляции равен -1,00 в случае прямой отрицательной корреляции, 0,00 при отсутствии взаимосвязи и + 1,00 при полной положительной корреляции. Наиболее распространенным коэффициентом корреляции является пирсоново r, названное так в честь британского ученого, соперничающего в известности с сэром Рональдом Фишером. Пирсоново r вычисляется для данных, полученных с помощью интервальной шкалы или шкалы отношений. В случае других шкал измерений рассматриваются другие виды корреляции. К примеру, для порядковых данных (т. е. упорядоченных) вычисляется «ро» Спирмена. В приложении С показано, как вычислять пирсоново r.

Отрицательная и положительная корреляция
Отрицательная и положительная корреляция

Так же как среднее арифметическое и стандартное отклонение, коэффициент корреляции является величиной описательной статистики. В ходе заключительного анализа определяется, является ли конкретная корреляция значимо большей (или меньшей) нуля. Таким образом, для корреляционных исследований нулевая гипотеза (Н0) говорит, что действительное значение r равно 0 (т. е. нет никаких взаимосвязей), а альтернативная гипотеза (Н) - что r № 0. Отвергнуть нулевую гипотезу - значит решить, что между двумя переменными существует значимая взаимосвязь. В приложении С показано, как определить, является ли корреляция статистически значимой.

Примеры отрицательной (слева) и положительной (справа) корреляции между динамикой роста двух конкретных деревьев разных видов
Примеры отрицательной (слева) и положительной (справа) корреляции между динамикой роста двух конкретных деревьев разных видов

       Линейная и нелинейная корреляция

Корреляционный анализ занимается степенью связи между двумя случайными величинами Х и Y. Корреляционный анализ экспериментальных данных для двух случайных величин заключает в себе следующие основные приемы:

- вычисление выборочных коэффициентов корреляции; 

- составление корреляционной таблицы; 

- проверка статистической гипотезы значимости связи.

График корреляций
График корреляций

Определение. Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии f(x) и ф(x) являются линейными. В этом случае обе линии регрессии являются прямыми; они называется прямыми регрессии.

Видео 14

Для достаточно полного описания особенностей корреляционной зависимости между величинами недостаточно определить форму этой зависимости и в случае линейной зависимости оценить ее силу по величине коэффициента регрессии. Например, ясно, что корреляционная зависимость возраста Y учеников средней школы от года Х их обучения в школе является, как правило, более тесной, чем аналогичная зависимость возраста студентов высшего учебного заведения от года обучения, поскольку среди студентов одного и того же года обучения в вузе обычно наблюдается больший разброс в возраcте, чем у школьников одного и того же класса.

Для оценки тесноты линейных корреляционных зависимостей между величинами Х и Y по результатам выборочных наблюдений вводится понятие выборочного коэффициента линейной корреляции, определяемого формулой:

 

Выборочный коэффициент линейной корреляции
Выборочный коэффициент линейной корреляции

Следует отметить, что основной смысл выборочного коэффициента линейной корреляции rB состоит в том, что он представляет собой эмпирическую (т.е. найденную по результатам наблюдений над величинами Х и Y) оценку соответствующего генерального коэффициента линейной корреляции r. Принимая во внимание формулы:

Генеральный коэфициент линейной корреляции
Генеральный коэфициент линейной корреляции

Видим, что выборочное уравнение линейной регрессии Y на Х имеет вид:

Выборочное уравнение линейной регрессии Y на Х
Выборочное уравнение линейной регрессии Y на Х

Основные свойства выборочного коэффициента линейной корреляции:

1. Коэффициент корреляции двух величин, не связанных линейной корреляционной зависимостью, равен нулю.

Пример линейной зависимости скорости удаления галактик от расстояния до них
Пример линейной зависимости скорости удаления галактик от расстояния до них

2. Коэффициент корреляции двух величин, связанных линейной корреляционной зависимостью, равен 1 в случае возрастающей зависимости и -1 в случае убывающей зависимости.

Линейная корреляционная зависимость
Линейная корреляционная зависимость

3. Абсолютная величина коэффициента корреляции двух величин, связанных линейной корреляционной зависимостью, удовлетворяет неравенству 0 меньше r меньше 1.

Понятие абсолютной величины коэффициента корреляции двух величин
Понятие абсолютной величины коэффициента корреляции двух величин

4. Чем ближе r к 1, тем теснее прямолинейная корреляция между величинами Y, X.

По своему характеру корреляционная связь может быть прямой и обратной, а по силе - сильной, средней, слабой. Кроме того, связь может отсутствовать или быть полной.

Сила и характер связи между параметрами
Сила и характер связи между параметрами

Пример 4. Изучалась зависимость между двумя величинами Y и Х. Результаты наблюдений приведены в таблице в виде двумерной выборки объема 11:

Результаты наблюдений для примера линейной корреляции
Результаты наблюдений для примера линейной корреляции

Требуется:

1. Вычислить выборочный коэффициент корреляции.

2. Оценить характер и силу корреляционной зависимости.

3. Написать уравнение линейной регрессии Y на Х.

Решение. По известным формулам:

Решение примера по линейной корреляции
Решение примера по линейной корреляции

Таким образом, следует сделать вывод, что рассматриваемая корреляционная зависимость между величинами Х и Y является по характеру - обратной, по силе - средней. Уравнение линейной регрессии Y на Х:

Уравнение линейной регрессии Y на Х
Уравнение линейной регрессии Y на Х

Пример 5. Изучалась зависимость между качеством Y (%) и количеством Х (шт). Результаты наблюдений приведены в виде корреляционной таблицы:

Исходные условия для примера по вычислению коэффициента выборочной корреляции
Исходные условия для примера по вычислению коэффициента выборочной корреляции

Требуется вычислить выборочный коэффициент линейной корреляции зависимости Y от Х.

Решение. Для упрощения вычислений перейдем к новым переменным - условным вариантам (ui, vi), воспользовавшись формулами при

Значение переменных
Значение переменных

Для удобства перепишем данную таблицу в новых обозначениях:

Таблица с новыми обозначениями исходных условий для примера по вычислению выборочного коэффициента линейной корреляции
Таблица с новыми обозначениями исходных условий для примера по вычислению выборочного коэффициента линейной корреляции

Видео 15

Решение примера по выборочному коэффициенту линейной корреляции
Решение примера по выборочному коэффициенту линейной корреляции

Вывод: Корреляционная зависимость между величинами Х и Y - прямая и сильная.

Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель, необходимо определить конкретные значения коэффициентов модели. При различных значениях а и b можно построить бесконечное число зависимостей, т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Примеры корреляционной зависимости
Примеры корреляционной зависимости

Линейную функцию ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов. В методе наименьших квадратов требуется, чтобы еi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Формула расчета коэффициентов а и b на прямой линии регрессии
Формула расчета коэффициентов а и b на прямой линии регрессии

Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:

Коэффициенты а и b - решение системы после исследования функции на экстремум
Коэффициенты а и b - решение системы после исследования функции на экстремум

Если разделить обе части нормальных уравнений на n, то получим:

Формула расчета коэффициентов а и b
Формула расчета коэффициентов а и b

При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле:

Формула коэффициента регрессии
Формула коэффициента регрессии

Полученная прямая является оценкой для теоретической линии регрессии. Имеем:

Уравнение линейной регрессии
Уравнение линейной регрессии

Регрессия может быть прямой (b больше 0) и обратной (b меньше 0). Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются. А обратная, что при росте одного параметра, значения другого параметра уменьшаются.

Пример 1. Результаты измерения величин X и Y даны в таблице:

Исходные условия примера по уравнению линейной регрессии
Исходные условия примера по уравнению линейной регрессии

Предполагая, что между X и Y существует линейная зависимость, способом наименьших квадратов определить коэффициенты a и b. Решение. Здесь n=5:

Решение примера по уравнению линейной регрессии
Решение примера по уравнению линейной регрессии

Решая эту систему, получим:

Решение системы
Решение системы

Пример 2. Имеется выборка из 10 наблюдений экономических показателей (X) и (Y).

Исходные условия примера по выборочному уравнению регрессии
Исходные условия примера по выборочному уравнению регрессии

Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.

Решение. 1. Проведем упорядочивание данных по значениям xi и yi. Получаем новую таблицу:

Упорядочинные данные для примера по выборочному уравнению регрессии
Упорядочинные данные для примера по выборочному уравнению регрессии

Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения.

Расчетная таблица для примера по выборочному уравнению регрессии
Расчетная таблица для примера по выборочному уравнению регрессии

Согласно формуле, вычисляем коэффициента регрессии: 

Вычисление коэффициента регрессии
Вычисление коэффициента регрессии

Нанесем на координатной плоскости точки (xi; yi) и отметим прямую регрессии.

График регрессии для примера выборочного уравнения регрессии
График регрессии для примера выборочного уравнения регрессии

На графике видно, как располагаются наблюдаемые значения относительно линии регрессии. Для численной оценки отклонений yi от Yi, где yi наблюдаемые, а Yi определяемые регрессией значения, составим таблицу:

Таблица численной оценки отклонений по примеру выборочного уравнения регрессии
Таблица численной оценки отклонений по примеру выборочного уравнения регрессии

Значения Yi вычислены согласно уравнению регрессии. Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции.

Сила зависимости определяется величиной коэффициента корреляции
Сила зависимости определяется величиной коэффициента корреляции

Видео 4

Показатели и коэффициенты корреляции

Случайная величина описывается двумя числовыми характеристиками: математическим ожиданием и дисперсией. Чтобы описать систему из двух случайных величин кроме «основных» характеристик используют так же корреляционный момент и коэффициент корреляции. Корреляционным моментом случайных величин X и У называют математическое ожидание произведения отклонений этих величин:

Корреляционный момент случайных величин
Корреляционный момент случайных величин

Для нахождения корреляционного момента дискретных величин используют формулу:

Нахождение корреляционного момента дискретных величин
Нахождение корреляционного момента дискретных величин

а для непрерывных величин - формулу :

Нахождение корреляционного момента неприрывных величин
Нахождение корреляционного момента неприрывных величин

Корреляционный момент характеризует наличие (отсутствие) связи между величинами X и У. Ниже будет доказано, что корреляционный момент равен нулю, если X и У независимы; Если же корреляционный момент для случайных величин X и Y не равен нулю, то между ними имеется завимость.

Замечание 1. Приняв во внимание, что отклонения есть центрированные случайные величины, можно дать корреляционному моменту определение, как математическому ожиданию произведения двух центрированных случайных величин:

Корреляционный момент как математическое ожидание
Корреляционный момент как математическое ожидание

Замечание 2. Не сложно доказать, что корреляционный момент можно записать в виде:

Корреляционный момент можно записать ввиде
Корреляционный момент можно записать ввиде

Теорема 1.  Корреляционный момент двух независимых случайных величин X и Y равен нулю.

Доказательство. Так как X и У - независимые случайные величины, то их отклонения X-М (X) и У-М (У) также независимы. Пользуясь свойствами математического ожидания (математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей) и отклонения (математическое ожидание отклонения равно нулю), получим: 

Корреляционный момент двух независимых случайных величин X и Y равен нулю
Корреляционный момент двух независимых случайных величин X и Y равен нулю

Из определения корреляционного момента следует, что он имеет размерность, равную произведению размерностей величин X и У. Другими словами, величина корреляционного момента зависит от единиц измерения случайных величин. По этой причине для одних и тех же двух величин величина корреляционного момента имеет различные значения в зависимости от того, в каких единицах были измерены величины. Пусть, например, X и У были измерены в сантиметрах и mxy = 2 см2; если измерить X и У в миллиметрах, то mxy = 200 мм. Такая особенность корреляционного момента является недостатком этой числовой характеристики, поскольку сравнение корреляционных моментов различных систем случайных величин становится затруднительным. Для того чтобы устранить этот недостаток, вводят новую числовую характеристику-коэффициент корреляции.

Видео 1

Коэффициентом корреляции гху случайных величин X и У называют отношение корреляционного момента к произведению средних квадратических отклонений этих величин:

Формула кожффициента корреляции
Формула кожффициента корреляции

Так как размерность mxy равна произведению размерностей величин X и У, x имеет размерность величины X, y имеет размерность величины Y, то rxy - безразмерная величина. Таким образом, величина коэффициента корреляции не зависит от выбора единиц измерения случайных величин. В этом состоит преимущество коэффициента корреляции перед корреляционным моментом. Очевидно, коэффициент корреляции независимых случайных величин равен нулю (так как mxy = 0).

Замечание 3. Во многих вопросах теории вероятностей целесообразно вместо случайной величины X рассматривать нормированную случайную величину X, которую определяют как отношение отклонения к среднему квадратическому отклонению:

Нормированная случайная величина
Нормированная случайная величина

Нормированная величина имеет математическое ожидание, равное нулю, и дисперсию, равную единице. Действительно, используя свойства математического ожидания и дисперсии, имеем:

Математическое ожидание и дисперсия нормированной случайной величины
Математическое ожидание и дисперсия нормированной случайной величины

Легко убедиться, что коэффициент корреляции rху равен корреляционному моменту нормированных величин X и Y :

Коэффициент корреляции равен корреляционному моменту нормированных величин
Коэффициент корреляции равен корреляционному моменту нормированных величин

Теорема 2.  Абсолютная величина корреляционного момента двух случайных величин X и Y не превышает среднего геометрического их дисперсий:

Среднее геометрическое дисперсии двух случайных величин
Среднее геометрическое дисперсии двух случайных величин

Доказательство теоремы 2
Доказательство теоремы 2

Теорема 3.  Абсолютная величина коэффициента корреляции не превышает единицы.

Доказательство:  Разделим обе части полученного двойного неравенства на произведение положительных чисел:

Абсолютная величина коэффициента корреляции не превышает единицы
Абсолютная величина коэффициента корреляции не превышает единицы

       Параметрические показатели корреляции

Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии У на X и X на У линейны, то говорят, что X и Y связаны линейной корреляционной зависимостью. Очевидно, что графики линейных функций регрессии - прямые линии, причем можно доказать, что они совпадают с прямыми среднеквадратической регрессии. Имеет место следующая важная теорема.

Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.

Доказательство. Двумерная плотность вероятности:

Двумерная плотность вероятности
Двумерная плотность вероятности

Плотность вероятности составляющей X:

Плотность вероятности составляющей X
Плотность вероятности составляющей X

Найдем функцию регрессии для чего сначала найдем условный закон распределения величины Y при Х=х:

Условный закон распределения величины Y
Условный закон распределения величины Y

Полученное условное распределение нормально с математическим ожиданием (функцией регрессии У на X):

Математическое ожидани и дисперсия для условного распределения
Математическое ожидани и дисперсия для условного распределения

Аналогично можно получить функцию регрессии X на Y:

Функция регрессии X на Y
Функция регрессии X на Y

Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать. Принимая во внимание вероятностный смысл параметров двумерного нормального распределения, заключаем, что уравнения прямых регрессии совпадают с уравнениями прямых среднеквадратической регрессии:

Уравнение прямых регрессий
Уравнение прямых регрессий

Видео 2

              Ковариация

Ковариация (корреляционный момент, ковариационный момент) в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин. Пусть X, Y - две случайные величины, определённые на одном и том же вероятностном пространстве. Тогда их ковариация определяется следующим образом:

Ковариация величин X и Y
Ковариация величин X и Y

Предполагается, что все математические ожидания Е в правой части данного выражения определены.

Замечания к определению ковариации
Замечания к определению ковариации

Пусть  X1, X2, ... ,Xn, Y1, Y2, ... ,Yn - выборки Xn и Yn случайных величин, определённых на одном и том же вероятностном пространстве. Тогда ковариацией между выборками Xn и Yn является:

Ковариация выборок
Ковариация выборок

Свойства ковариации:

Свойства ковариации
Свойства ковариации

Если ковариация положительна, то с ростом значений одной случайной величины, значения второй имеют тенденцию возрастать, а если знак отрицательный - то убывать. Однако только по абсолютному значению ковариации нельзя судить о том, насколько сильно величины взаимосвязаны, так как её масштаб зависит от их дисперсий. Масштаб можно отнормировать, поделив значение ковариации на произведение среднеквадратических отклонений (квадратных корней из дисперсий). При этом получается так называемый коэффициент корреляции Пирсона, который всегда находится в интервале от −1 до 1.

Среднеквадратическое отклонение ковариации
Среднеквадратическое отклонение ковариации

Случайные величины, имеющие нулевую ковариацию, называются некоррелированными. Независимые случайные величины всегда некоррелированы, но не наоборот. Обсудим достоинства и недостатки ковариации, как величины, характеризующей зависимость двух случайных величин.

Видео 3

1. Если ковариация отлична от нуля, то случайные величины зависимы. Чтобы судить о наличии зависимости согласно любому из определений независимости, требуется знать совместное распределение пары случайных величин. Но найти совместное распределение часто бывает сложнее, чем посчитать математическое ожидание произведения случайных величин. Если нам повезёт, и математическое ожидание произведения случайных величин не будет равняться произведению их математических ожиданий, мы скажем, что случайные величины зависимы, не находя их совместного распределения! Это очень хорошо.

Пример ковариации случайных величин при недостаточных данных
Пример ковариации случайных величин при недостаточных данных

2. Величина ковариации не является «безразмерной»: если е - объем газа в сосуде, а n - давление этого газа, то ковариация измеряется в м3Па. Иначе говоря, при умножении этих величин на какое-нибудь число ковариация тоже умножается на это число. Но умножение на число не сказывается на «степени зависимости» величин (они от этого «более зависимыми» не становятся), так что большое значение ковариации не означает более сильной зависимости. Это очень плохо.

Нужно как-то нормировать ковариацию, получив из неё «безразмерную» величину, абсолютное значение которой: не менялось бы при умножении случайных величин на число и свидетельствовало бы о «силе зависимости» случайных величин.

Замечание: Говоря о «силе» зависимости между случайными величинами, мы имеем в виду следующее. Самая сильная зависимость - функциональная, а из функциональных - линейная зависимость, когда:

Функциональная линейная зависимость
Функциональная линейная зависимость

Бывают гораздо более слабые зависимости. Так, если по последовательности независимых случайных величин построить величины:

Последовательность независимых случайных величин
Последовательность независимых случайных величин

то эти величины зависимы, но очень «слабо»: через единственное общее слагаемое Е25. Сильно ли зависимы число гербов в первых двадцати пяти подбрасываниях монеты и число гербов в испытаниях с двадцать пятого по девяностое? Итак, следующая величина есть всего лишь ковариация, нормированная нужным образом.

Теорема (неравенство Коши - Буняковского):

Неравенство Коши - Буняковского
Неравенство Коши - Буняковского

Доказательство:

Доказательство теоремы Коши - Буняковского
Доказательство теоремы Коши - Буняковского

Ковариационная матрица (или матрица ковариаций) в теории вероятностей - это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов. Ковариационная матрица случайного вектора - квадратная симметрическая матрица, на диагонали которой располагаются дисперсии компонент вектора, а внедиагональные элементы - ковариациями между компонентами.

Определения ковариационной матрицы
Определения ковариационной матрицы

Такая матрица ковариации является обобщением дисперсии для многомерной случайной величины, а ее след - скалярным выражением дисперсии многомерной случайной величины. Собственные векторы и собственные числа этой матрицы позволяют оценить размеры и форму облака распределения такой случайной величины, аппроксимировав его эллипсоидом (или эллипсом в двумерном случае).

Свойства мартиц ковариации:

Свойства матриц ковариации
Свойства матриц ковариации

Видео 17

              Линейный коэффициент корреляции (коэффициент корреляции Пирсона)

Линейный корреляционный анализ позволяет установить прямые связи между переменными величинами по их абсолютным значениям. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона.

В общем виде формула для подсчета коэффициента корреляции такова:

Формула для подсчета коэффициента корреляции в общем виде
Формула для подсчета коэффициента корреляции в общем виде

Расчет коэффициента корреляции Пирсона предполагает, что переменные X и Y распределены нормально. Даная формула предполагает, что из каждого значения xi переменной X, должно вычитаться ее среднее значение x. Это не удобно, поэтому для расчета коэффициента корреляции используют не данную формулу, а ее аналог, получаемый с помощью преобразований:

Расчет коэффициента корреляции Пирсона
Расчет коэффициента корреляции Пирсона

Используя данную формулу, решим следующую задачу: 20 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y - среднее время решения вербальных заданий тестов.

Видео 18

Для решения данной задачи представим исходные данные в виде таблицы, в которой введены дополнительные столбцы, необходимые для расчета по формуле В таблице 12 даны индивидуальные значения переменных X и Y, построчные произведения переменных X и Y, квадраты переменных всех индивидуальных значений переменных X и Y, а также суммы всех вышеперечисленных величин.

Исходные данные для примера по Коэффициенту Пирсона
Исходные данные для примера по Коэффициенту Пирсона

Рассчитываем эмпирическую величину коэффициента корреляции по формуле:

Эмпирическая величина коэффициента корреляции
Эмпирическая величина коэффициента корреляции

Определяем критические значения для полученного коэффициента корреляции. Величины критических значений коэффициентов линейной корреляции Пирсона даны по абсолютной величине. Следовательно, при получении как положительного, так и отрицательного коэффициента корреляции по формуле оценка уровня значимости этого коэффициента проводится по той же таблице приложения без учета знака, а знак добавляется для дальнейшей интерпретации характера связи между переменными X и Y.

При нахождении критических значений для вычисленного коэффициента корреляции Пирсона число степеней свободы рассчитывается как

Число расчета степеней свободы
Число расчета степеней свободы

Строим соответствующую "ось значимости":

Ось значимости
Ось значимости

Ввиду того, что величина расчетного коэффициента корреляции попала в зону значимости - Н0 отвергается и принимается гипотеза Н1. Иными словами, связь между временем решения наглядно-образных и вербальных задач статистически значима на 1% уровне и положительна. Полученная прямо пропорциональная зависимость говорит о том, что чем выше среднее время решения наглядно-образных задач, тем выше среднее время решения вербальных и наоборот.

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия: сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений, распределения переменных X и Y должны быть близки к нормальному, число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Видео 19

Пример решения задачи при помощи коэффициента Пирсона. На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основным запросам в поисковой системе необходимо проверить, можно ли говорить о линейной зависимости между позицией сайта и числом посетителей. Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

Значение признаков Х и У в задаче по коэффициенту Пирсона
Значение признаков Х и У в задаче по коэффициенту Пирсона

1. На основании исходных данных, приведенных в таблице, расчитаем средние значения для X и Y:

Среднее значение Х и У
Среднее значение Х и У

Все необходимые для расчета коэффициента корреляции промежуточные данные и их суммы представлены в таблице:

Расчет коэффициента корреляции Пирсона в примере
Расчет коэффициента корреляции Пирсона в примере

Оценим полученное нами эмпирическое значение коэффициента Пирсона, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента корреляции Пирсона.  Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Пирсона = 0,67, с уровнем значимости p = 0,01 критическое значение коэффициента Пирсона  = 0,8. Так как абсолютное значение, полученного нами коэффициента корреляции меньше критического значения, взятого из таблицы (находится вне зоны значимости), мы принимаем гипотезу Н0 об отсутcтвии корреляционной зависимости между выборками. Полученный результат свидетельствует об отсутствии линейной зависимости между числом посетителей сайта и его позицией в поисковой системе, однако это не означает, что эти параметры не связаны между собой.

Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией
Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией

       Непараметрические показатели корреляции

Непараметрические методы как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

Нормальное распределение переменной
Нормальное распределение переменной

По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп: критерии различия между группами (независимые выборки); критерии различия междугруппами (зависимые выборки); критерии зависимости между переменными.

Видео 20

Различия между независимыми группами. Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых выборок (в модуле Основные статистики и таблицы). Непараметрическими альтернативами этому критерию являются: критерий серий Вальда-Вольфовица, U критерий Манна-Уитни и двухвыборочный критерий Колмогорова-Смирнова. Если вы имеете несколько групп, то можете использовать дисперсионный анализ. Его непараметрическими аналогами являются: ранговый дисперсионный анализ Краскела-Уоллиса и медианный тест.

Пример коэффициентов непараметрической взаимокорреляции
Пример коэффициентов непараметрической взаимокорреляции

Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке (например, математические успехи студентов в начале и в конце семестра), то обычно используется t-критерий для зависимых выборок (в модуле Основные статистики и таблицы. Альтернативными непараметрическими тестами являются: критерий знаков и критерий Вилкоксона парных сравнений. Если рассматриваемые переменные по природе своей категориальны или являются категоризованными (т.е. представлены в виде частот попавших в определенные категории), то подходящим будет критерий хи-квадрат Макнемара. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями. Альтернативным непараметрическим методом является ранговый дисперсионный анализ Фридмана или Q критерий Кохрена (последний применяется, например, если переменная измерена в номинальной шкале). Q критерий Кохрена используется также для оценки изменений частот (долей).

Пример диаграммы рассеяния с наложенной линией наименьших квадратов
Пример диаграммы рассеяния с наложенной линией наименьших квадратов

Зависимости между переменными. Для того, чтобы оценить зависимость (связь) между двумя переменными, обычно вычисляют коэффициент корреляции. Непараметрическими аналогами стандартного коэффициента корреляции Пирсона являются статистикиСпирмена R, тау Кендалла  и коэффициент Гамма. Если две рассматриваемые переменные по природе своей категориальны, подходящими непараметрическими критериями для тестирования зависимости будут: Хи-квадрат, Фи коэффициент, точный критерий Фишера. Дополнительно доступен критерий зависимости между несколькими переменными так называемый коэффициент конкордации Кендалла. Этот тест часто используется для оценки согласованности мнений независимых экспертов (судей), в частности, баллов, выставленных одному и тому же субъекту.

Пример вычисление коэффициента корреляции Пирсона
Пример вычисление коэффициента корреляции Пирсона

Описательные статистики. Если данные не являются нормально распределенными, а измерения, в лучшем случае, содержат ранжированную информацию, то вычисление обычных описательных статистик (например, среднего, стандартного отклонения) не слишком информативно. Например, в психометрии хорошо известно, что воспринимаемая интенсивность стимулов (например, воспринимаемая яркость света) представляет собой логарифмическую функцию реальной интенсивности (яркости, измеренной в объективных единицах - люксах). В данном примере, обычная оценка среднего (сумма значений, деленная на число стимулов) не дает верного представления о среднем значении действительной интенсивности стимула. (В обсуждаемом примере скорее следует вычислить геометрическое среднее.) Модуль Непараметрическая статистика вычисляет разнообразный набор мер положения (среднее, медиану, моду и т.д.) и рассеяния (дисперсию , гармоническое среднее, квартильный размах и т.д.), позволяющий представить более "полную картину" данных.

Пример корреляционной зависимости между переменными, которую можно описать с помощью кубической функции
Пример корреляционной зависимости между переменными, которую можно описать с помощью кубической функции

Нелегко дать простой совет, касающийся использования непараметрических процедур. Каждая непараметрическая процедура в модуле имеет свои достоинства и свои недостатки. Например, двухвыборочный критерий Колмогорова-Смирнова чувствителен не только к различию в положении двух распределений, например, к различиям средних, но также чувствителен и к форме распределения. Критерий Вилкоксона парных сравнений предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если это не так, лучше использовать критерий знаков. В общем, если результат исследования является важным (например, оказывает ли людям помощь определенная очень дорогостоящая и болезненная терапия?), то всегда целесообразно применить различные непараметрические тесты. Возможно, результаты проверки (разными тестами) будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты. С другой стороны, непараметрические тесты имеют меньшую статистическую мощность (менее чувствительны), чем их параметрические конкуренты, и если важно обнаружить даже слабые отклонения (например, является ли данная пищевая добавка опасной для людей), следует особенно внимательно выбирать статистику критерия.

Пример таблицы значений статистических критериев
Пример таблицы значений статистических критериев

Большие массивы данных и непараметрические методы. Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n больше 100), то не имеет смысла использовать непараметрические статистики. Главное здесь состоит в том, что когда выборки становятся очень большими, то выборочные средние подчиняются нормальному закону, даже если исходная переменная не является нормальной или измерена с погрешностью. Таким образом, параметрические методы, являющиеся более чувствительными (имеют большую статистическую мощность), всегда подходят для больших выборок. Большинство критериев значимости многих непараметрических статистик, описанных далее, основываются на асимптотической теории (больших выборок) поэтому соответствующие тесты часто не выполняются, если размер выборки становится слишком малым. Обратитесь к описаниям определенных критериев, чтобы узнать больше об их мощности и эффективности.

Пример результатов исследования с помощью t-критерия
Пример результатов исследования с помощью t-критерия

Видео 21

              Коэффициент ранговой корреляции Кенделла

Коэффициент корреляции Кенделла (Kendall tau rank correlation coefficient) - мера линейной связи между случайными величинами. Корреляция Кенделла является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Критическая область критерия Кенделла
Критическая область критерия Кенделла

Коэффициент корреляции Кенделла вычисляется по формуле:

Вычисление корреляции Кенделла
Вычисление корреляции Кенделла

Коэффициент Кенделла принимает значения отрезка -1; +1. Значение +1 - указывает на строгую прямую линейную зависимость, -1 - на обратную. 

Обоснование критерия Кенделла
Обоснование критерия Кенделла

Для измерения степени согласия Кенделл предложил следующий коэффициент:

Измерение степени согласия
Измерение степени согласия

Таким образом, коэффициент Кенделла можно считать мерой неупорядоченности второй последовательности относительно первой.

Статистическая проверка наличия корреляции. Нулевая гипотеза Н0: Выборки x и y не коррелируют. Рассмотрим центрированную и нормированную статистику Кенделла:

Центрированная и нормированная статистика Кенделла
Центрированная и нормированная статистика Кенделла

Нулевая гипотеза отвергается (против альтернативы Н1 - наличие корреляции), если:

Условия отвержения нулевой гипотезы
Условия отвержения нулевой гипотезы

Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением. Заметно, что в большинстве случаев коэффициент Спирмена больше коэффициента Кенделла. Объяснение этого эффекта приводится ниже.

Направление линейной зависимости.

Корреляции Кенделла и Спирмена. Нормальные сгущения
Корреляции Кенделла и Спирмена. Нормальные сгущения

Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными.

Наклон линейного тренда.

Корреляции Кенделла и Спирмена. Вращающаяся полоса
Корреляции Кенделла и Спирмена. Вращающаяся полоса

Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости.

Нелинейная зависимость.

Корреляции Кенделла и Спирмена. Нелинейная зависимость
Корреляции Кенделла и Спирмена. Нелинейная зависимость

Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными.

Линейная и нелинейная зависимости. На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом.

Корреляции Кенделла и Спирмена. Перекрещенные полосы
Корреляции Кенделла и Спирмена. Перекрещенные полосы

Корреляции Кенделла и Спирмена. Расширяющаяся полоса
Корреляции Кенделла и Спирмена. Расширяющаяся полоса

Корреляции Кенделла и Спирмена. Синусоида с переменной амплитудой
Корреляции Кенделла и Спирмена. Синусоида с переменной амплитудой

По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают. В случае выборок из нормального распределения коэффициент корреляции Кенделла может быть использован для оценки коэффициента корреляции Пирсона по формуле:

Оценка коэффициента корреляции Пирсона
Оценка коэффициента корреляции Пирсона

Выборкам x и y соответствуют последовательности рангов:

Выборкам x и y соответствуют последовательности рангов
Выборкам x и y соответствуют последовательности рангов

Проведем операцию упорядочивания рангов. 

Операция упорядочивания рангов
Операция упорядочивания рангов

Коэффициент корреляции Кенделла и коэффициент корреляции Спирмена выражаются через ранги следующим образом:

Выражение через ранги коэффициента корреляции Спирмена и Кенделла
Выражение через ранги коэффициента корреляции Спирмена и Кенделла

Заметно, что в случае с коэффициентом Спирмана инверсиям придаются дополнительные веса, таким образом коэффициент Спирмана сильнее реагирует на несогласие ранжировок, чем коэффициент Кенделла. Этот эффект проявляется в приведённых выше примерах: в большинстве из них коэффициент Спирмана больше коэффициент Кенделла. 

Утверждение. Если выборки x и y не коррелируют (выполняется гипотеза Н0), то величины Кенделла и Спирмена сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле:

Коэффициент корреляции между величинами Кенделла и Спирмена
Коэффициент корреляции между величинами Кенделла и Спирмена

              Коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена (Spearman rank correlation coefficient) - мера линейной связи между случайными величинами. Для оценки силы связи между величиными используются не численные значения, а соответствующие им ранги. Этот коэффициент определяет степень тесноты и направленность связи признаков. Величина коэффициента лежит в интервале от +1 до -1. Абсолютное значение характеризует тесноту связи, а знак - направленность связи между двумя признаками.

Видео 22

Преимущество: можно ранжировать по признакам, которые нельзя выразить численно: субъективные оценки, предпочтения и т.д. При экспертных оценках можно ранжировать оценки разных экспертов и найти их корреляции друг с другом, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелирующие с оценками других. Коэффициент корреляции рангов применяется для оценки устойчивости тенденции динамики.

Вычисление коэффициента корреляции Спирмена
Вычисление коэффициента корреляции Спирмена

Недостатки: недостатком коэффициента корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений (в случае количественных признаков). Недоучет размеров отклонений признаков от их средних величин занижает меру тесноты связи. Поэтому для количественных признаков корреляция рангов обладает меньшей информативностью, чем коэффициент корреляции числовых значений этих признаков.

Вычисление коэффициент корреляции Спирмена пр наличии связок
Вычисление коэффициент корреляции Спирмена пр наличии связок

Свойства коэффициента ранговой корреляции Спирмена: 

1. Нормируемость. Коэффициент корреляции рангов может принимать значения от -1 до +1. Значение 1 свидетельствует о возможном наличии прямой связи, значение - 1 свидетельствует о возможном наличии обратной связи.

Видео 23

2. Ограниченность. Для оценки данных необходима выборка от 5 до 40 наблюдений по каждой переменной. При большом количестве одинаковых рангов по сопоставляемым переменным коэффициент дает приближенные значения. При совпадении значений вносится поправка на одинаковые ранги. В этом случае формула имеет вид: 

Свойство ограниченности коэффициента ранговой корреляции Спирмена
Свойство ограниченности коэффициента ранговой корреляции Спирмена

3. Независимость. Чтобы получить адекватный результат, необязательно наличие нормального закона распределения коррелируемых рядов.

Коэффициент корреляции рангов используется для оценки качества связи между двумя совокупностями. Кроме этого, его статистическая значимость применяется при анализе данных на гетероскедастичность.

При ранжировании возможно появление одинаковых рангов в каждом ряду. Одинаковые ранги называются связками. Возможно присутствие нескольких связок в одном ряду рангов. Повторяющиеся ранги для X и Y отсутствуют: количество значений переменных в X и Y - должно быть одинаково; разность рангов для пары значений X и Y.

Обоснование критерия Спирмена
Обоснование критерия Спирмена

Повторяющиеся ранги для X и Y есть. В этом случае вводится поправка на связки в ранговых рядах. Поправка рассчитывается для каждого ряда отдельно. Поправка для каждого ряда рассчитывается с учетом всех связок в этом ряду: поправка для связок рангов в ряду X; поправка для связок рангов в ряду Y; номер связки в ряду X; количество одинаковых рангов в связке с номером j; номер связки в ряду Y; количество одинаковых рангов в связке с номером k.

Критическая область критерия Спирмена
Критическая область критерия Спирмена

Пример решения задачи с использованием коэффициента Спирмана: На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основны м запросам в поисковой системе необходимо проверить, можно ли говорить о линейная зависимость между позицией сайта и числом посетителей.

Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

Значения признаков Х и У для примера решения задачи коэффициента Спирмана
Значения признаков Х и У для примера решения задачи коэффициента Спирмана

Проранжируем каждый из элементов признаков (X и Y) в порядке возрастания значений (самому маленькому элемнту присвоим ранг 1 и т. д. до самого большого элемента последовательности, который получит ранг m). Результаты ранжирования представлены в таблице:

Результаты ранжирования признаков
Результаты ранжирования признаков

Кроме рангов, для каждого элемента из наборов признаков X и Y в таблице расчитаны Di - разность рангов и D2 - квадрат разности рангов пары соответствующих элементов X и Y. Для расчета коэффициена ранговой корреляции Спирмена используется формула:

Формула для расчета коэффициента Спирмана
Формула для расчета коэффициента Спирмана

Найдем сумму квадратов разностей рангов, сложив для этого элементы столбца. Подставим полученные значения в формулу, и найдем значение коэффициента Спирмена.

Коэффициент корреляции Спирмена
Коэффициент корреляции Спирмена

Оценка коэффициента корреляции Спирмена. Оценим полученное нами эмпирическое значение коэффициента Спирмена, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента ранговой корреляции Спирмена. Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Спирмена = 0,68. 

Видео 24

Так как абсолютное значение, полученного нами коэффициента корреляции больше критического значения, взятого из таблицы, мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии связи.

Оценка коэффициента корреляции Спирмена на основании t-критерия. Произведем оценку значимости полученного нами коэффициента ранговой корреляции Спирмена, используя таблицу "Стьюдента". 

Таблица коэффициентов Стьюдента
Таблица коэффициентов Стьюдента

Так как коэффициент ранговой корреляции больше t-критерия мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии отрицательной связи между числом посетителей сайта и его позицией в поисковой системе.

Заметим, что для тех же исходных данных при подсчете коэффициента корреляции Пирсона в результате было получено заключение об отсутствии связи. Такой результат можно обьяснить тем, что коэффициент корреляции Пирсона подтверждает или опровергает наличие линейной зависимости. Коэффициент рангов Спирмена подтверждает присутствие монотонно-возрастающей или убывающей зависимости (не обязательно линейной). В нашем случае зависимость нелинейная, но монотонно-убывающая.

Значимость коэффициента ранговой корреляции
Значимость коэффициента ранговой корреляции

              Коэффициент корреляции знаков Фехнера

Коэффициент Фехнера - это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такми коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков.

Г. Фехнер предложил очень простой способ оценки степени связи между составляющими двумерной выборки без использования уравнения регрессии. Для определения индекса Фехнера вычисляют средние Х и У, а затем для каждой пары определяют знаки отклонений. Для каждой пары возможны четыре сочетания знаков: ++; +-; -+; --.

Формула индекса Фехнера
Формула индекса Фехнера

Очевидно, что i больше либо равно -1 и i меньше либо равно +1, и что при i больше 0 имеем положительную корреляцию, при i меньше 0 - отрицательную, при i = 0 связь в указанном смысле отсутствует. Коэффициент Фехнера изменяется в пределах -1; +1 и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Свойства коэффициента Фехнера
Свойства коэффициента Фехнера

Расчет коэффициента Фехнера состоит из следующих этапов: 

1. Определяют средние значения для каждого признака (X и Y).

2. Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.

3. Если знаки совпадают, присваивают значение А, иначе В.

4. Считают количество А и В, вычисляя коэффициент Фехнера по формуле:

Вычисление коэффициента Фехнера
Вычисление коэффициента Фехнера

Найдем индексы Фехнера для примера.

Пример расчета коэффициента Фехнера
Пример расчета коэффициента Фехнера

Графическое представление коэффициента Фехнера
Графическое представление коэффициента Фехнера

              Коэффициент множественной ранговой корреляции (конкордации)

До сих пор рассматривались модели простой корреляции, т.е. корреляционной зависимости между двумя признаками Однако в практике экономического анализа часто приходится изучать явления, которые складываются под влиянием не одного, а многих различных факторов, каждый из которых в отдельности может не производить решающего влияния Совокупный же влияние факторов иногда оказывается достаточно сильным, чтобы по их изменениях можно было делать виснет овкы о величинах показателя изучаемого явления Методы измерения корреляционной связи одновременно между двумя, тремя и более корреляционными признакам создают учение о множественной корреляции.

Видео 25

В моделях множественной корреляции зависимая переменная рассматривается как функция нескольких (в общем случае п) независимых переменных. Множественное корреляционное уравнение устанавливает связь между исследуемыми признаками и позволяет вычислить ожидаемые значения результативного признака под влиянием включенных в анализ признаков-факторов, связанных да аниме уравнением.

Для оценки степени тесноты связи между результативным и факторными признаками вычисляют коэффициент множественной корреляции Величина его всегда положительное число, которое находится в пределах от 0 до 1. В множественных корреляционно-регрессионных моделях коэффициент простой корреляции между результативным признаком и факторными, а также между самими факторными признаками. 

В множественных корреляционно-регрессионных моделях коэффициент простой корреляции
В множественных корреляционно-регрессионных моделях коэффициент простой корреляции

Методы корреляции произведения моментов Пирсона и линейного регрессионного анализа Гальтона были обобщены и расширены в 1897 г. Джорджем Эдни Юлом до модели множественной линейной регрессии, предполагающей использование многомерного нормального распределения. Методы множественной корреляции позволяют оценить связь между множеством непрерывных независимых переменных и одной зависимой непрерывной переменной. Коэффициент множественной корреляции обозначается через R0. Его вычисление требует решения совместной системы линейных уравнений. Число линейных уравнений равно числу независимых переменных.

Видео 26

Иногда необходимо исключить эффект третьей переменной, с тем чтобы определить «чистую» связь между любой парой переменных. Частный (парциальный) коэффициент корреляции выражает связь между двумя переменными при исключенном (элиминированном) влиянии еще одной или несколко других переменных. В простейшем случае частный коэффициент корреляции вычисляется как функция парных корреляций (произведений моментов) между Y, X1 и Х2. 

При небходимости можно воспользоваться услугами группы из m-экспертов, установить результирующие ранги целей, но тогда возникнет вопрос о согласованности мнений этих экспертов или конкордации. Пусть у нас имеются ранжировки 4 экспертов по отношению к 6 факторам, которые определяют эффективность некоторой системы.

Ранжировки экспертов по отношению к факторам
Ранжировки экспертов по отношению к факторам

Заметим, что полная сумма рангов составляет 84, что дает в среднем по 14 на фактор. Для общего случая n факторов и m экспертов среднее значение суммы рангов для любого фактора определится выражением.

Среднее значение суммы рангов
Среднее значение суммы рангов

Теперь можно оценить степень согласованности мнений экспертов по отношению к шести факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы. Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений.

В нашем случае сумма таких квадратов составит S= 64, а в общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:

Наибольшая сумма квадратов
Наибольшая сумма квадратов

М. Кэндэллом предложен показатель согласованности или коэффициент конкордации, определяемый как:

Коэффициент конкордации Кенделла
Коэффициент конкордации Кенделла

В нашем примере значение коэффициента конкордации составляет около 0,229, что при четырех экспертах и шести факторах достаточно, чтобы с вероятностью не более 0.05 считать мнения экспертов несогласованными. Дело в том, что как раз случайность ранжировок, их некоррелированность просчитывается достаточно просто. Так для нашего примера указанная вероятность соответствует сумме квадратов отклонений S = 143,3 , что намного больше 64.

Видео 27

В заключение вопроса об особенностях метода экспертных оценок в системном анализе отметим еще два обстоятельства. В первом примере мы получили результирующие ранги 10 целей функционирования некоторой системы. Как воспользоваться этой результируюзей ранжировкой? Как перейти от ранговой шкалы целей к шкале весовых коэффициентов - в диапазоне от 0 до 1?

Здесь обычно используются элементарные приемы нормирования. Если цель 3 имеет ранг 1, цель 8 имеет ранг 2 и т. д., а сумма рангов составляет 55, то весовой коэффициент для цели 3 будет наибольшим и сумма весов всех 10 целей составит 1. Вес цели придется определять как: 

Определение веса цели
Определение веса цели

При использовании групповой экспертной оценки можно не только выяснять мнение экспертов о показателях, необходимых для системного анализа. Очень часто в подобных ситуациях используют так называемый метод Дельфы (от легенды о дельфийском оракуле). Опрос экспертов проводят в несколько этапов, как правило - анонимно. После очередного этапа от эксперта требуется не просто ранжировка, но и ее обоснование. Эти обоснования сообщаются всем экспертам перед очередным этапом без указания авторов обоснований.

Имеющийся опыт свидетельствует о возможностях существенно повысить представительность, обоснованность и, главное, достоверность суждений экспертов. В качестве “побочного эффекта” можно составить мнение о профессиональности каждого эксперта.

Определение рангового коэффициента конкордации
Определение рангового коэффициента конкордации

       Свойства коэффициента корреляции

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (Xi, Yi), полученную при совместном измерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

Видео 28

Коэффициенты корреляции - удобный показатель связи, получивший широкое применение в практике. К их основным свойствам необходимо отнести следующие:

1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи.

Теорема: свойства коэффициента корреляции
Теорема: свойства коэффициента корреляции

Доказательство теоремы о свойствах коэффициента корреляции
Доказательство теоремы о свойствах коэффициента корреляции

Продолжение доказательства теоремы о свойствах коэффициента корреляции
Продолжение доказательства теоремы о свойствах коэффициента корреляции

2. Значения коэффициентов корреляции - это отвлеченные числа, лежащее в пределах от -1 до +1.

3. При независимом варьировании признаков, когда связь между ними отсутствует.

4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+) знак и находится в пределах от 0 до +1.

Стандартизация случайной величины
Стандартизация случайной величины

5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (–) знаком и находится в пределах от 0 до –1.

6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если коэффициент корреляции + - 1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y.

7. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

Теорема стандартизированной случайной величины
Теорема стандартизированной случайной величины

Доказательство теоремы стандартизированной случайной величины
Доказательство теоремы стандартизированной случайной величины

В практической деятельности, когда число коррелируемых пар признаков Х и Y невелико, то при оценке зависимости между показателями используется следующую градацию:

- высокая степень взаимосвязи - значения коэффициента корреляции находится в пределах от 0,7 до 0,99;

- средняя степень взаимосвязи - значения коэффициента корреляции находится в пределах от 0,5 до 0,69;

- слабая степень взаимосвязи - значения коэффициента корреляции находится от 0,2 до 0,49.

Видео 29

Пример по свойствам коэффициента корреляции
Пример по свойствам коэффициента корреляции

Решение примера по свойствам коэффициента корреляции
Решение примера по свойствам коэффициента корреляции

Корреляционный анализ

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами. При изучении стохастических зависимостей различают корреляцию и регрессию.Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (xi, yi) из совместной генеральной совокупности X и Y. Существует несколько типов коэффициентов корреляции, применение которых зависит от измерения (способа шкалирования) величин X и Y.

Корреляционное поле
Корреляционное поле

Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используется коэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки X и Y  распределены по нормальному закону. Корреляционный анализ измеряет степень взаимосвязи между двумя переменными - например, ценой бумаги и индикатором. Полученная величина (именуемая "коэффициент корреляции") показывает, приведут ли изменения одной переменной (например, индикатора) к изменениям другой (например, цены).

Видео 30

При корреляционном анализе двух переменных одна из них называется "зависимая", а другая - "независимая". Цель анализа - определить, приведут ли изменения независимой переменной (обычно это индикатор) к изменениям зависимой (обычно это цена бумаги). Данные корреляционного анализа помогают определить прогностические возможности индикаторов.

Теоретическое уравнение регрессии
Теоретическое уравнение регрессии

Коэффициент корреляции может изменяться в диапазоне + - 1,0. Коэффициент +1,0 (полная положительная корреляция) означает, что изменения независимой переменной приведут к идентичным изменениям зависимой (т.е. изменение индикатора вызовет такое же изменение цены бумаги). Коэффициент 1,0 (полная отрицательная корреляция) означает, что изменения независимой переменной вызовут идентичные изменения зависимой, но в противоположном направлении. Коэффициент, равный нулю, свидетельствует об отсутствии связи между переменными, то есть изменения независимой переменной не влияют на изменения зависимой.

Пример корреляции случайных величин
Пример корреляции случайных величин

Низкий коэффициент корреляции (менее + - 0,10) означает, что связь между переменными слаба или вовсе отсутствует. Высокий коэффициент корреляции (ближе к +1 или 1) показывает, что зависимая переменная (например, цена бумаги) обычно изменяется при изменении независимой (например, индикатора).

Направление изменения зависимой переменной определяется знаком коэффициента корреляции. Если значение коэффициента положительно, то зависимая переменная изменится в том же направлении, что и независимая; если же его значение отрицательно, то зависимая переменная будет двигаться в направлении, противоположном изменению независимой.

Корреляционный анализ имеет два основных назначения: определение прогностических возможностей индикаторов и характера взаимосвязи двух финансовых инструментов.

Пример корреляции величин
Пример корреляции величин

В случае сравнения индикатора и цены бумаги высокий положительный коэффициент корреляции (скажем, больше +0,70) означает, что за изменением индикатора должно последовать соответствующее изменение цены. Высокая отрицательная корреляция (напр., меньше 0,70) говорит о том, что изменение индикатора обычно вызывает изменение цены в противоположном направлении. Низкий (т.е. близкий к нулю) коэффициент корреляции означает слабую взаимосвязь цены и индикатора.

Видео 31

Корреляционный анализ также используется для измерения взаимосвязи двух финансовых инструментов. Нередко один из них "опережает" другой, позволяя предсказать его будущую динамику. Так, коэффициент корреляции между ценой на золото и курсом доллара говорит о сильной отрицательной зависимости. Это означает, что рост курса доллара обычно предвещает падение цен на золото.

Следующий график иллюстрирует взаимосвязь цен на кукурузу и живых свиней. Высокие значения коэффициента корреляции показывают, что эта взаимосвязь сильна (исключая короткие периоды в феврале и мае): если цены на кукурузу изменяются, цены на свиней движутся в том же направлении.

Корреляция цен на кукурузу и количества живых свиней
Корреляция цен на кукурузу и количества живых свиней

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной X, произойдет одновременно с пропорциональным изменением значения Y.

Корреляционная связь не предполагает причинной зависимости между переменными. Корреляционный анализ может использоваться для определения тесноты и направления связи и в причинных моделях. Инструментами корреляционного анализа являются разнообразные меры связи. Выбор мер (коэффициентов) связи зависит от способов измерения переменных и характера связи между ними.

Корреляция роста и веса человека
Корреляция роста и веса человека

Для количественных, порядковых и дихотомических переменных используются понятия прямой и обратной связи. Связь между количественными и/или порядковыми переменными является прямой, если значения двух переменных одновременно возрастают или убывают; обратной - если возрастание значений одной переменной сопровождается убыванием значений второй.

Для дихотомических переменных связь является прямой, если измеряемые ими свойства объектов чаще встречаются или не встречаются одновременно, чем порознь; обратной - если соответствующие свойства чаще встречаются порознь.

Для номинальных переменных, за исключением дихотомических, понятия прямой и обратной связи не определены, связь между ними рассматривается как ненаправленная.

Отрицательная корреляция
Отрицательная корреляция

Отдельную методологическую проблему представляет так называемая «ложная корреляционная зависимость», проявляющаяся в корреляционной связи (иногда достаточно сильной) между переменными, которые заведомо не могут взаимно обусловливать друг друга. Причиной обычно является наличие некого неучтенного в анализе фактора, который влияет на каждую из исследуемых переменных. Например,корреляция сорта губной помады с политическими убеждениями женщины объясняется ее общественным положением и уровнем благосостояния. Ложные корреляции, так же, как вызывающие их факторы, могут быть выявлены только в результате глубокого теоретического анализа структуры связей между переменными. Для их устранения применяется аппарат коэффициентов частной корреляции.

Отсутсвие корреляции
Отсутсвие корреляции

       Ограничения корреляционного анализа

Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистического исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию). Например, сравнивая два хозяйства, одно из которых имеет лучшее качество почв, по уровню урожайности, можно обнаружить, что урожайность выше в хозяйстве с худшими почвами. Ведь урожайность зависит от сотен факторов и при том же самом качестве почв может быть и выше, и ниже. Но если сравнивать большое число хозяйств с лучшими почвами и большое число - с худшими, то средняя урожайность в первой группе окажется выше и станет возможным измерить достаточно точно параметры корреляционной связи.

Множество корреляционных полей
Множество корреляционных полей

Какое именно число явлений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше - не менее чем в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.

Обнаружение автокорреляции графическим методом
Обнаружение автокорреляции графическим методом

Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточная качественная однородность совокупности. Нарушение этого условия можег извратить параметры корреляции. Например, в массе зерновых хозяйств уровень продукции с гектара растет по мере концентрации площадей, т.е. он выше в крупных хозяйствах. В массе овощных и овоще-молочных хозяйств (пригородный тип) наблюдается та же прямая связь уровня продукции с размером хозяйства. Но если соединить в общую неоднородную совокупность те и другие хозяйства, то связь уровня продукции с размером площади пашни (или посевной площади) получится обратной. Причина в том, что овощные и овоще-молочные хозяйства, имея меньшую площадь, чем зерновые, производят больше продукции с гектара ввиду большей интенсивности производства в данных отраслях, чем в производстве зерна.

Анализ корреляции - карикатура
Анализ корреляции - карикатура

Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта. предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты. 

Видео 32

Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятностей или распределения Стьюдента.

Пример корреляционного анализа явки избирателей на выборы
Пример корреляционного анализа явки избирателей на выборы

Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Можно ли, например, построить уравнение корреляционной зависимости размеров выручки от продажи картофеля, от объема продажи и цены? Ведь произведение объема продажи и цены равно выручке в каждом отдельном случае. Как правило, к таким жестко детерминированным связям применяют только индексный метод анализа. Однако на этот вопрос можно взглянуть и с другой точки зрения. При индексном анализе выручки предполагается, что количество проданного картофеля и его цена независимы друг от друга, потому-то и допустима абстракция от изменения одного фактора при измерении влияния другого, как это принято в индексном методе. В реальности количество и цена не являются вполне независимыми друг от друга.

Точечные диаграммы коэффициентов корреляции
Точечные диаграммы коэффициентов корреляции

Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает нам более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через его влияние на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, индексным анализом можно ограничиться. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.

Видео 33

Ограничения корреляционного анализа: 

1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно быть не менее, чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию не менее, чем в 10 раз превышающую количество факторов). В случае, если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.

Применение корреляционного анализа возможно при наличии достаточного количества наблюдений
Применение корреляционного анализа возможно при наличии достаточного количества наблюдений

2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае, если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.

Многомерное нормальное распределение
Многомерное нормальное распределение

3. Исходная совокупность значений должна быть качественно однородной. 

4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора. 

Факт корреляционной зависимости не даёт основания утверждать, что одна из переменных является причиной изменений
Факт корреляционной зависимости не даёт основания утверждать, что одна из переменных является причиной изменений

       Задачи корреляционного анализа

В соответствии с сущностью корреляционной связи ее изучение имеет две цели: измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной (зависимость средних величин результативного признака от значений одного или нескольких факторных признаков); измерение тесноты связи двух (или большего числа) признаков между собой.

Видео 34

Вторая задача специфична для статистических связей, а первая разработана для функциональных связей и является общей. Основным методом решения задачи нахождения параметров уравнения связи является метод наименьших квадратов (МНК), разработанный К. Ф. Гауссом (1777-1855). Он состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной у от ее значений, вычисленных по уравнению связи с факторным признаком (многими признаками) х.

Пример корреляционных связей между параметрами сердца крыс
Пример корреляционных связей между параметрами сердца крыс

Для измерения тесноты связи применяется несколько показателей. При парной связи теснота связи измеряется прежде всего корреляционным отношением, которое обозначается греческой буквой п. Квадрат корреляционного отношения - это отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий. Квадрат корреляционного отношения называется коэффициентом детерминации:

 

Квадрат корреляционного отношения называется коэффициентом детерминации
Квадрат корреляционного отношения называется коэффициентом детерминации

Формула применяется при расчете показателя тесноты связи по аналитической группировке. При вычислении корреляционного отношения по уравнению связи (уравнению парной или множественной регрессии) применяется формула:

Корреляционное отношение по уравнению связи
Корреляционное отношение по уравнению связи

Сумма квадратов в числителе - это объясненная связью с фактором х (факторами) дисперсия результативного признака у. Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на основе уравнения регрессии.

Если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителе может оказаться большей, чем в знаменателе, и отношение утратит тот смысл, который оно должно иметь, а именно какова доля общей вариации результативного признака, объясняемая на основе выбранного уравнения связи его с факторным признаком (признаками). Чтобы избежать ошибочного результата, лучше вычислять корреляционное отношение по другой формуле, не столь наглядно выявляющей сущность показателя, но зато полностью гарантирующей от возможного искажения:

Вычисление корреляционного отношения
Вычисление корреляционного отношения

В числителе формулы стоит сумма квадратов отклонений фактических значений признака у от его индивидуальных расчетных значений, т. е. доля вариации этого признака, не объясняемая за счет входящих в уравнение связи признаков-факторов. Эта сумма не может стать равной нулю, если связь не является функциональной. При неверной формуле уравнения связи или ошибке в расчетах возрастают расхождения фактических и расчетных значений, и корреляционное отношение снижается, как логически и должно быть.

В основе перехода от формулы к формуле лежит известное правило разложения сумм квадратов отклонений при группировке совокупности:

Правило разложения сумм квадратов отклонений при группировке совокупности
Правило разложения сумм квадратов отклонений при группировке совокупности

При расчете n не по группировке, а по уравнению корреляционной связи (уравнению регрессии) мы используем формулу. В этом случае правило разложения суммы квадратов отклонений результативного признака записывается как:

Правило разложения суммы квадратов отклонений результативного признака
Правило разложения суммы квадратов отклонений результативного признака

Важнейшее положение, которое следует теперь усвоить любому, желающему правильно применять метод корреляционно-регрессионного анализа, состоит в интерпретации формул. Это положение гласит: Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связана корреляционно с вариацией факторного признака (признаков).

Видео 35

Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если же задача исследования состоит в измерении связи не между вариацией двух признаков в совокупности, а между изменениями признаков объекта во времени, то метод корреляционно-регрессионного анализа требует значительного изменения.

Пример корреляционной структуры готовности студентов к сдаче экзаменов
Пример корреляционной структуры готовности студентов к сдаче экзаменов

Из вышеприведенного положения об интерпретации показателей корреляции следует, что нельзя трактовать корреляцию признаков как связь их уровней. Это ясно хотя бы из следующего примера. Если бы все крестьяне области внесли под картофель одинаковую дозу удобрений, то вариация этой дозы была бы равна нулю, а следовательно, она абсолютно не могла бы влиять на вариацию урожайности картофеля. Параметры корреляции дозы удобрений с урожайностью будут тогда строго равны нулю. Но ведь и в этом случае уровень урожайности зависел бы от дозы удобрений - он был бы выше, чем без удобрений.

Итак, строго говоря, метод корреляционно-регрессионного анализа не может объяснить роли факторных признаков в создании результативного признака. Это очень серьезное ограничение метода, о котором не следует забывать.

Основные понятия корреляционного анализа
Основные понятия корреляционного анализа

 

Следующий общий вопрос - это уже рассмотренный в разделе о группировке вопрос о «чистоте» измерения влияния каждого отдельного факторного признака. Как отмечалось в главе 6, группировка совокупности по одному факторному признаку может отразить влияние именно данного фактора на результативный признак при условии, что все другие факторы не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же изучаемый фактор связан с другими факторами, влияющими на результативный признак, будет получена не «чистая» характеристика влияния только одного фактора, а сложный комплекс, состоящий как из непосредственного влияния фактора, так и из его косвенных влияний, через его связь с другими факторами и их влияние на результативный признак. Данное положение полностью относится и к парной корреляционной связи.

Понятие корреляционного анализа
Понятие корреляционного анализа

Однако коренное отличие метода корреляционно-регрессионного анализа от аналитической группировки состоит в том, что корреляционно-регрессионный анализ позволяет разделить влияние комплекса факторных признаков, анализировать различные стороны сложной системы взаимосвязей. Если метод комбинированной аналитической группировки, как правило, не дает возможность анализировать более 3 факторов, то корреляционный метод при объеме совокупности около ста единиц позволяет вести анализ системы с 8-10 факторами и разделить их влияние.

Система основных понятий корреляционного анализа
Система основных понятий корреляционного анализа

Наконец, развивающиеся на базе корреляционно-регрессионного анализа многомерные методы (метод главных компонент, факторный анализ) позволяют синтезировать влияние признаков (первичных факторов), выделяя из них непосредственно не учитываемые глубинные факторы (компоненты). Например, изучая корреляцию ряда признаков интенсификации сельскохозяйственного производства, таких, как фондообеспеченность, затраты труда на единицу площади, энергообеспеченность, внесение удобрений на единицу площади, плотность поголовья скота, можно синтезировать общую часть их влияния на уровень продукции с единицы площади или на производительность труда, получив обобщенный фактор «интенсификация производства», непосредственно не измеримый, не отражаемый единым показателем.

Пример факторного анализа (система факторов величины затрат на производство)
Пример факторного анализа (система факторов величины затрат на производство)

Правильное применение и интерпретация результатов корреляционно-регрессионного анализа возможны лишь при понимании всех специфических черт, достоинств и ограничений метода. Поэтому нужно рекомендовать вернуться к данному разделу заново после изучения остальных разделов данной главы и после приобретения некоторой практики применения метода к решению различных задач.

Необходимо сказать и о других задачах применения корреляционно-регрессионного метода, имеющих не формально математический, а содержательный характер:

1. Задача выделения важнейших факторов, влияющих на результативный признак (т.е. на вариацию его значений в совокупности). Эта задача решается в основном на базе мер тесноты связи факторов с результативным признаком.

Задача выделения важнейших факторов
Задача выделения важнейших факторов

2. Задача оценки хозяйственной деятельности по эффективности использования имеющихся факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были бы получены при средней по совокупности эффективности использования факторов и сравнения их с фактическими результатами производства.

Задача оценки хозяйственной деятельности по эффективности факторов производства
Задача оценки хозяйственной деятельности по эффективности факторов производства

3. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнение связи и вычисления ожидаемых значений результативного признака.

Видео 36

Приходится решать и обратную задачу: вычисление необходимых значений факторных признаков для обеспечения планового или желаемого значения результативного признака в среднем по совокупности. Эта задача обычно не имеет единственного решения в рамках данного метода и должна дополняться постановкой и решением оптимизационной задачи на нахождение наилучшего из возможных вариантов ее решения (например, варианта, позволяющего достичь требуемого результата с минимальными затратами).

Задача прогнозирования возможных значений результативного признака
Задача прогнозирования возможных значений результативного признака

4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач. Например, для нахождения оптимальной структуры производства в районе на перспективу исходная информация должна включать показатели производительности на предприятиях разных отраслей и форм собственности. В свою очередь, эти показатели могут быть получены на основе корреляционно-регрессионной модели либо на основании тренда динамического ряда (а тренд - это тоже уравнение регрессии).

Задача подготовки данных
Задача подготовки данных

При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов. В этом отношении корреляционные методы глубоко противоречивы. С одной стороны, их идеал - измерение чистого влияния каждого фактора. С другой стороны, такое измерение возможно при отсутствии связи между факторами и случайной вариации признаков. А тогда связь является функциональной, и корреляционные методы анализа излишни. В реальных системах связь всегда имеет статистический характер, и тогда идеал методов корреляции становится недостижимым. Но это не значит, что эти методы не нужны.

Этапы проведения комплексного корреляционно-регрессионного анализа
Этапы проведения комплексного корреляционно-регрессионного анализа

Данное противоречие означает попросту недостижимость абсолютной истины в познании реальных связей. Приближенный характер любых результатов корреляционно-регрессионного анализа не является поводом для отрицания их полезности. Всякая научная истина - относительна. Забыть об этом и абсолютизировать параметры регрессионных уравнений, меры корреляции было бы ошибкой, так же как и отказаться от использования этих мер.

Конечные результаты корреляционно-регрессионного анализа
Конечные результаты корреляционно-регрессионного анализа

       Область применения корреляционного анализа

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи. Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Характеристика метода корреляционно-регрессионного анализа
Характеристика метода корреляционно-регрессионного анализа

Корреляционно-регрессионной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми, в соответствии с теоретическим знанием о природе связей в изучаемой системе.

Приведенное определение КРМ включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью. В частности, полученное выше по 16 хозяйствам уравнение не отвечает последнему требованию из-за противоречащего экономике сельского хозяйства знака при факторе х2 - доля пашни. Однако в учебных целях используем его как модель.

Корреляционно-регрессионный анализ зависимости двух переменных
Корреляционно-регрессионный анализ зависимости двух переменных

Теория и практика выработали ряд рекомендаций для построения корреляционно-регрессионной модели:

1. Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому, недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов хj коэффициент рентабельности, хотя включение такого «фактора» значительно повышает коэффициент детерминации.

Признаки-факторы должны находиться в причинной связи с результативным признаком
Признаки-факторы должны находиться в причинной связи с результативным признаком

2. Признаки-факторы не должны быть составными частями результативного признака или его функциями, о чем уже сказано ранее.

Признаки-факторы не должны быть составными частями результативного признака
Признаки-факторы не должны быть составными частями результативного признака

3. Признаки-факторы не должны дублировать друг друга, т. е. быть коллинеарными (с коэффициентом корреляции более 0,8). Так, не следует в модель производительности труда включать и энерговооруженность рабочих, и их фондовооруженность, так как эти факторы тесно связаны друг с другом в большинстве объектов.

Признаки-факторы не должны дублировать друг друга
Признаки-факторы не должны дублировать друг друга

4. Не следует включать в модель факторы разных уровней иерархии, т. е. фактор ближайшего порядка и его субфакторы. Например, в моделях себестоимости зерна не следует включать и урожайность зерновых культур, и дозу удобрений под них или затраты на обработку гектара, показатели качества семян, плодородия почвы, т. е. субфакторы самой урожайности.

Не следует включать в модель факторы разных уровней иерархии
Не следует включать в модель факторы разных уровней иерархии

5. Желательно, чтобы между результативным признаком и факторами соблюдалось единство единицы совокупности, к которой они отнесены. Например, если у - валовой доход предприятия, то и все факторы должны относиться к предприятию: стоимость производственных фондов, уровень специализации, численность работников и т. д. Если же у - средняя зарплата рабочего на предприятии, то факторы должны относиться к рабочему: разряд или классность, стаж работы, возраст, уровень образования, энерговооруженность и т. д. Правило это не категорическое, в модель зарплаты рабочего можно включить, например и уровень специализации предприятия.

Между результативным признаком и факторами должно соблюдаться единство единицы совокупности
Между результативным признаком и факторами должно соблюдаться единство единицы совокупности

6. Математическая форма уравнения регрессии должна соответствовать логике связи факторов с результатом в реальном объекте. Например, такие факторы урожайности, как дозы разных удобрений, уровень плодородия, число прополок и т. п., создают прибавки величины урожайности, мало зависящие друг от друга; урожайность может существовать и без любого из этих факторов. Такому характеру связей отвечает аддетивное уравнение регрессии.

Видео 37

Наоборот, если у - объем валовой продукции завода, х1 - число работников, х2 - стоимость основных производственных фондов, х3 - затраты на энергию, топливо, сырье, материалы, то результат без любого из факторов не существует, поэтому большинство экономистов-статистиков строят КРМ (называемую производственной функцией, что весьма не удачно терминологически) в мультипликативной форме.

Математическая форма уравнения регрессии
Математическая форма уравнения регрессии

7. Принцип простоты: предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем коэффициенте. Для анализа степени эффективности управления производством можно использовать сравнение единиц совокупности по показателям отклонений результативного признака от средней величины и от значения, расчитанного по уравнению регрессии.

Предпочтительнее модель с меньшим числом факторов
Предпочтительнее модель с меньшим числом факторов

Первое слагаемое в правой части равенства - это отклонение, которое возникает за счет отличия индивидуальных значений факторов у данной единицы совокупности от их средних значений по совокупности. Его можно назвать эффектом факторообеспеченности. Второе слагаемое - отклонение, которое возникает за счет не входящих в модель факторов и отличия индивидуальной эффективности факторов по данной единице совокупности от средней эффективности факторов в совокупности, измеряемой коэффициентами условно-чистой регрессии. Его можно назвать эффектом фа-тороотдачи.

Видео 38

Рассмотрим пример расчета и анализа отклонений по ранее построенной модели уровня валового дохода в 16 хозяйствах. Знаки тех и других отклонений 8 раз совпадают и 8 раз не совпадают. Коэффициент корреляции рангов отклонений двух видов составил 0,156. Это означает, что связь вариации факторообеспеченности с вариацией фактороотдачи слабая, несущественная.

Анализ факторообеспеченности и фактороотдачи по регрессионной модели уровня валового дохода
Анализ факторообеспеченности и фактороотдачи по регрессионной модели уровня валового дохода

Обратим внимание на хозяйство 15 с высокой факторообеспеченностью (15-е место) и самой худшей фактороотдачей (1-й ранг), из-за которой хозяйство недополучило по 122 руб. дохода с 1 га. Напротив, хозяйство 5 имеет факторообеспеченность ниже средней, но благодаря более эффективному использованию факторов получило на 125 руб. дохода с 1 га больше, чем было бы получено при средней по совокупности эффективности факторов. Более высокая эффективность фактора х1 (затраты труда) может означать более высокую квалификацию работников, лучшую заинтересованность работников в качестве выполняемой работы. Более высокая эффективность фактора х3 с точки зрения доходности может состоять в высоком качестве молока (жирности, охлажденности), ввиду которого оно реализовано по более высоким ценам. Коэффициент регрессии при х2, как уже отмечено, экономически не обоснован.

Зависимость изменения объемов капитальных вложений и суммы получаемого валового дохода хозяйства 1
Зависимость изменения объемов капитальных вложений и суммы получаемого валового дохода хозяйства 1

Использование регрессионной модели для прогнозирования состоит в подстановке в уравнение регрессии ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака или (и) его доверительного интервала с заданной вероятностью. Сформулированные там же ограничения прогнозирования по уравнению регрессии сохраняют свое значение и для многофакторных моделей. Кроме того, необходимо соблюдать системность между подставляемыми в модель значениями факторных признаков.

Зависимость изменения объемов капитальных вложений и суммы получаемого валового дохода хозяйства 2
Зависимость изменения объемов капитальных вложений и суммы получаемого валового дохода хозяйства 2

Формулы для расчета средних ошибок оценки положения гиперплоскости регрессии в заданной многомерной точке и для индивидуальной величины результативного признака весьма сложны, требуют применения матричной алгебры и здесь не рассматриваются. Средняя ошибка оценки значения результативного признака, рассчитанная по программе ПЭВМ «Microstat», равна 79,2 руб. на 1 га. Это лишь среднее квадратическое отклонение фактических значений дохода от расчетных по уравнению, не учитывающее ошибки положения самой гиперплоскости регрессии при экстраполяции значений факторных признаков. Поэтому ограничимся точечными прогнозами в нескольких вариантах.

Для сравнения прогнозов с базисным уровнем средних по совокупности значений признаков введена первая строка таблицы. Краткосрочный прогноз рассчитан на малые изменения факторов за короткое время и снижение трудообеспеченности.

Зависимость изменения объемов капитальных вложений и суммы получаемого валового дохода хозяйства 3
Зависимость изменения объемов капитальных вложений и суммы получаемого валового дохода хозяйства 3

Результат неблагоприятен, доход снижается. Долгосрочный прогноз А - «осторожный», он предполагает весьма умеренный прогресс факторов и соответственно небольшое увеличение дохода. Вариант Б - «оптимистический», рассчитан на существенное изменение факторов. Вариант 5 построен по способу, которым Агафья Тихоновна в комедии Н. В. Гоголя «Женитьба» мысленно конструирует портрет «идеального жениха»: нос взять от одного претендента, подбородок от другого, рост от третьего, характер от четвертого... вот если бы соединить все нравящиеся ей качества в одном человеке, она бы не колеблясь вышла замуж... Так и при прогнозировании мы объединяем лучшие (с точки зрения модели дохода) наблюдаемые значения факторов: берем значение x1 от хозяйства 10, значение x2 от хозяйства 2, значение х3 от хозяйства 16. Все значения факторов уже существуют реально в изучаемой совокупности, они не «ожидаемые», не «взятые с потолка», это хорошо. Однако могут ли эти значения факторов сочетаться в одном предприятии, системны ли эти значения? Решение данного спорного вопроса выходит за рамки статистики, оно требует конкретных знаний об объекте прогнозирования.

Прогнозы валового дохода по регрессионной модели
Прогнозы валового дохода по регрессионной модели

Практическое применение корреляции

Начнем с самого понимания «корреляции», что это вообще, и почему лично я так много внимания этому уделяю. Корреляция, если простыми словами, - это взаимосвязь двух или более событий, т.е. когда происходит одно, то вероятно (статистически подтверждено) и другое. Когда-то корреляции на рынке были невыраженными в моменте, они были растянуты во времени. Вот, к примеру, как рассуждают экономисты/аналитики: «Если индекс доллара упадет, цена на нефть должна расти…»  или «Если индекс SNP упадет, цена на золото должна вырасти или наоборот)))…» , ну это как бы простые причинно-следственные связи. Однако совершенно очевидно, что если все так просто, то все бы с легкостью зарабатывали, чего, как мы все прекрасно знаем, не происходит. Пример самой жесткой корреляции - это пары типа Евро/Доллар. Они намертво связаны между собой. Малейшее изменение цены одного приводит к мгновенному изменению цены другого. Тут, понятно, корреляция обратная, и речь идет о торгуемых инструментах, например, на СМЕ.  И данная корреляция действительна в обе стороны. Есть же, например, бумаги, которые сами «ничего не решают», но есть у них «старший», который и скажет, куда им «идти». А есть ситуации, в которых таких «старших» два и более, вот тут совсем все интересно становится.

Видео 39

Когда речь заходит о корреляциях, в том смысле, в каком я их понимаю, неизбежно возникает вопрос: «а кто главный (ведущий)?». Для этого введем понятие «Поводырь» - это будет любой торгуемый инструмент, изменение цены которого приведет к какой-либо реакции того, за которым мы наблюдаем (торгуем).

Корреляция акций
Корреляция акций

 

Основные поводыри для Американского рынка акций следующие (в порядке убывания силы глобального влияния):

1. Фьючерс на индекс  SNP 500 - главный поводырь, самый влиятельный, нет ни одного ликвидного инструмента, на который бы не оказало влияние изменение цены фьючерса хотя бы на тик, реакция есть всегда. Вопрос  о первичности (кто за кем «ходит»), Индекс или Фьючерс, всегда рождает много споров, но нас, спекулянтов, скальперов, волнует только одно - кто из них быстрее. Я могу ответственно заявить, что фьючерс - быстрее, изменчивее (в разы) и главнее в данном контексте.

Фьючерс на индекс  S&P 500
Фьючерс на индекс S&P 500

2. Фьючерс на нефть марки Light Sweet - углеводороды, что тут еще сказать. Сильное влияние оказывает на некоторые сектора, на отдельные индустрии, связанные с нефтедобычей и нефтепереработкой, а также на те отрасли, где существенная статья затрат - топливо и ГСМ, например авиакомпании. Сам актив несколько зависим от индекса доллара.

Фьючерс на нефть марки Light Sweet
Фьючерс на нефть марки Light Sweet

3. Фьючерс на золото (и другие драг. металлы) - желтый металл рулит по-прежнему, ибо мировое «золотое плечо» уже вылезло  за все допустимые рамки, не дам источник, но цитату приведу: «В мире обещания продать золото, больше в 100 раз, чем самого золота», как-то так. Т.е. это и мерило ценности некоторых валют,  и надежный (однако!) для многих актив, и инструмент хеджирования рисков и еще много чего полезного делает. Также как и нефть, оказывает серьезное влияние на компании, занимающиеся золотодобычей, переработкой, реализацией и прочим. Сам по себе поводырь зависим (в моменте) от индекса доллара.

Фьючерс на золото
Фьючерс на золото

4. Индекс доллара - с появлением Евро все сильнее стал подвержен колебаниям, связанным с проблемами в Еврозоне, также изменчив за счет спекулятивных действий в торгуемой валютной паре Евро/Доллар. Сам зависим от макроэкономической статистики, стоимости облигаций (и наоборот тоже, тут уже сложный аналитический расклад, который данной статьи никак не касается, тем более, я не аналитик и тем более, не экономист, а спекулянт. Оказывает влияние на многие товарные фьючерсы, расчет по которым ведется в долларах США.

Индекс доллара
Индекс доллара

Видео 40

Поводырем вторичным (а иногда и первичным) может также являться акция, которая в данный момент самая сильная/слабая в секторе/индустрии, которая сама по себе является более весомой в индексе из всего сектора. Например, если $C (Citigroup) измениться резко в цене на полпроцента, это мгновенно скажется на остальных акциях, связанных с банковской деятельностью и с финансами, не так сильно отразиться на $JPM  и $BAC, но точно «дернет» $BBT и $PNC, к примеру, а уж $FAZ и  $FAS отреагируют как следует, по взрослому, с резким изменением котировок и объемом. А вот обратное не будет иметь такого влияния. Если $PNC или какой-нибудь банк Испании или Ирландии не обрушиться на пару процентов, то никто из «толстых» не заметит, однако по цепочке может привести к некоей корректировке на графике. Скажем так, $PNC также входит в состав портфеля, торгуемого в виде ETF $FAZ ($FAS), так вот сильное его ($PNC) изменение приведет к неминуемому (но небольшому) изменению цены индекса, что, закономерно, приведет к корректировке даже $C и $BAC, первого на несколько центов, а второго, возможно, ни на сколько, разве стакан уплотниться в «сильную» сторону. Это один из вариантов, комбинаций может быть очень много. На графике видно, как акции вторичные стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны, и как послушно они «идут» за всеми, если направление сильных совпадает:

 

акции вторичные стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны
акции вторичные стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны

На графике изображены: SPY - SPDR S&P 500 (белая линия), C - Citigroup, Inc., JPM - JPMorgan Chase & Co., BAC - Bank of America Corporation, GS - The Goldman Sachs Group, Inc., BBT - BB&T Corporation, PNC - PNC Financial Services Group Inc.

Видео 41

Теперь давайте рассмотрим какой-нибудь самый необычный пример. Вот Авиакомпании. Например $UAL или $DAL или $LCC, не входят в состав индекса SNP 500 и тем более DJIA, однако довольно объемны, имеют высокую капитализацию, в целом привязаны к рынку, как таковому, но главное - зависят от цен на топливо. И не нужно рассказывать, что у них все поставки фьючерсные, с фиксированной ценой на пару лет вперед и прочее, это все так, но откройте их график минутный и понаблюдайте, что происходит, когда нефть очень резко изменяется в цене. А теперь добавьте сюда индекс доллара, который влияет на них самих, т.к. цены их услуг - они в долларах и сама нефть зависит от него (доллара), ну и SNP 500, который частенько идет в противоход нефти… Вот их (акции авиакомпаний) разрывает в разные стороны. А еще помню день был, когда у $LCC отчет случился и нефть с рынком в разные стороны… Вот  остальных трепало! График выглядел интересно. Вот пример за эту неделю, $LCC валится на растущей нефти и растущем фьючерсе, и отрастает на падающей нефти (тикер $USO):

LCC валится на растущей нефти и растущем фьючерсе, и отрастает на падающей нефти
LCC валится на растущей нефти и растущем фьючерсе, и отрастает на падающей нефти

На графике изображены: SPY - SPDR S&P 500 (белая линия), USO - United States Oil, UAL - United Continental Holdings, Inc., LCC - US Airways Group, Inc., DAL - Delta Air Lines Inc.

Также, для дальнейшего понимания написанного мною, потребуется ввести еще один термин - «Драйвер», под которым понимается некое событие, которое сильно влияет на поведение торгуемого актива, либо, что немаловажно, поводыря, за которым мы также наблюдаем, это может быть новость в компании, отчет, понижение/повышение рейтинга или новость, касающаяся сектора в целом, макроэкономическая статистика, изменение ставки рефинансирования и другие. Т.е. драйверы глобальные влияют на фьючерсы (поводыри, описанные выше), а те, в свою очередь, на торгуемые инструменты и т.д.

«Драйвер» - некое событие, которое сильно влияет на поведение торгуемого актива
«Драйвер» - некое событие, которое сильно влияет на поведение торгуемого актива

Теперь вопрос: почему акции так одинаково ходят и кто за всем этим стоит? Да все, особенно скальперы, роботы-скальперы, люди-скальперы. Роботы-арбитражеры в первую очередь, а также алгоритмы, котирующие акцию (читай маркетмейеры). Ведь иначе невозможно было бы такую массу акций заставить двигаться более менее одинаково, речь, понятно, внутри дня. Потому что, если мы взглянем на большие таймфреймы, то выясниться, что многие сектора живут своей отдельной жизнью. Вот например, график месячный, с 2000 года:

Месячный график движения акций
Месячный график движения акций

На нем изображены: XLK - Technology Select Sector SPDR, XLF - Financial Select Sector SPDR, XLP - Consumer Staples Select Sector SPDR, XLE - Energy Select Sector SPDR, XLV - Health Care Select Sector SPDR, XLI - Industrial Select Sector SPDR, XLB - Materials Select Sector SPDR, XLU - Utilities Select Sector SPDR, XLY - Consumer Discret Select Sector SPDR, SPY - SPDR S&P 500 (белая линия).

Ютилитис какие слабенькие. Интересно, они рванут вверх, за ростом фьючерса или на малейшем его откате  шлёпнутся еще ниже? Разброс относительно $SPY приличный. А вот, что на меньших масштабах времени, дневка, за 2012 год:

Дневное движение акций
Дневное движение акций

Действующие лица те же. В общем есть некое понимание, что графики похожи, но одни сильнее рынка в целом, а другие слабее, в абсолютном выражении, при расчете на начало года. Это все глобально, на год, а вот на месяц:

Месячное движение акций
Месячное движение акций

Действующие лица те же. Меня же в торговле интересует арбитраж внутридневной, график - от пятиминутного до минутного:

Пятиминутный график движения акций
Пятиминутный график движения акций

Или, например, технологический сектор в пятницу (14.09.2012), смотрите, как на откатах фьючерса вниз они «валяться» и «стоят» на его росте, между прочим - это и есть входы в шорт:

Технологический сектор ранка акций
Технологический сектор ранка акций

На графике изображены: SPY - SPDR S&P 500 (белая линия), T - AT&T, Inc., VZ - Verizon Communications Inc., XLK - Technology Select Sector SPDR.

Это, что касательно фьючерса SNP 500 (на графиках, для моего удобства показан не сам фьючерс, а ETF на индекс SNP 500, учитывая, что график - линия, различий нет совсем). А вот пример акций нефтяной индустрии, в сравнении с нефтью:

Пример акций нефтяной индустрии
Пример акций нефтяной индустрии

На графике изображены: USO - United States Oil, XOM - Exxon Mobil Corporation, SLB - Schlumberger Limited, CVX - Chevron Corporation. Или, например, «золотые» акции, в сравнении, понятно, с золотом:

«Золотые» акции в сравнении с золотом
«Золотые» акции в сравнении с золотом

На графике изображены: GLD - SPDR Gold Shares, NEM - Newmont Mining Corp., KGC - Kinross Gold Corporation, ABX - Barrick Gold Corporation.

Однако, график - одно, а стакан с лентой (LEVEL II + Time & sales) - совсем  другое дело (кстати, именно это и позволяет торговать $SPY, опираясь на фьючерс). Показать в картинках, что происходит и какая реакция - сложно, потому распишу немного словами. Что можем видеть на ведомых, если на ведущих есть большое движение? В первую очередь - изменение котировки без сделок, оно и понятно, акции скоррелированы, а торговать-то некому, ибо акции не первого эшелона, но машинки-котировщики будут исправно двигать биды с оферами, в след за «старшим» братом, держа при этом некий спред, обычно больше 3-4 ц. Если же движение общее, не только на сильных акциях, а на всем рынке в целом, то может произойти сильное движение, с объемом, и с еще большим расширением спреда в противоположную от него (движения) сторону. Например, нефть ($USO) улетела вверх на полпроцента за секунду, в $SLB будет расширен спред в сторону оферов (ASK), чтобы продать повыше, а потом закрыться пониже, поднимая биды (BID). Это один из десятков сценариев, понятно, что всегда есть вариации, но уловить общее можно, если тщательно понаблюдать и проанализировать поведение акций  и их поводырей.

LEVEL II + Time & sales - стакан с лентой
LEVEL II Time & sales - стакан с лентой

Видео 42

Стиль торговли таким образом называется «Арбитраж», торгуется, как правило, минимум два инструмента, причем часто в разные стороны, но можно торговать один, рассматривая другие инструменты, как поводырей. Стиль сегодня очень роботизирован, но и для «мануальных скальперов» еще есть место.

Сложим все варианты арбитража в одну табличку и определим четыре варианта действий (простым языком, не пинайте, но так понятно всем будет): что отросло и главное - продавать, а что недоросло - покупать;  что упало и главное - покупать, а что недоупало - продавать; что отросло и главное - не трогать, а что недоросло - продавать; что упало и главное - не трогать, а что недоупало - покупать.

При арбитраже, как правило, торгуется два инструмента
При арбитраже, как правило, торгуется два инструмента

Имея ввиду торговлю одного инструмента, чаще поступают так, торгуя по тренду сектора (индустрии): что не главное и отросло сильно - продавать, в случае, когда главное - «стоит и смотрит» вниз (было на вебинаре, кто помнит, $TCK); что не главное и упало сильно - покупать, в случае, когда  главное - «стоит и смотрит» вверх.

Еще более кратко сам процесс можно описать так: определяем глобально (по секторам), кто сильный, кто слабый - по дневке; смотрим внутри сектора (на дневках) между акциями тоже самое; смотрим внутри дня на акции (по тренду сектора), опираясь на фьючерс (+ другие поводыри). 

Видео 43

Теперь, как определить «главного» в секторе/индустрии. Те, кто первый в столбце, те и рулят, как правило. НО!!! В случае, если нет глобальных новостей по сектору или если нет отчетов у разных акций из этого сектора. Т.е. их главенство имеет место быть в самый скучный понедельник, а не в день статистики, запасов газа, безработицы да еще с отчетом старших акций.

Определение
Определение

       Корреляция валютных пар на Форексе

Некоторые валюты имеют тенденцию двигаться в одном направлении, другие - в . Это мощные знания для тех, кто торгует более чем на одной валютной паре. Такой метод позволяет хеджировать, диверсифицировать, или удваивать прибыльные позиции. Статистически измеряется производительность, валютные пары так называемые "коэффициенты корреляции" от +1 до -1. Корреляция +1 означает, что две валютные пары движутся в одном направлении, относительно друг друга. Корреляция -1 означает, что они будут двигаться в противоположном направлении, относительно друг друга. Корреляция ноль означает, что никакой связи между валютными парами не существует.

Как рассчитать корреляцию интересующих вас валютных пар?
Как рассчитать корреляцию интересующих вас валютных пар?

Как читать таблицу корреляции: Каждая ячейка таблицы показывает коэффициент корреляции, между двумя валютными парами, за соответствующий период времени. Следующие категории указывают на быстрый способ интерпретации значения таблицы. Обратите внимание, что отрицательная корреляция означает, что две пары валют коррелируют в противоположных направлениях (например, когда цена на одной идет вверх, другая идет вниз и наоборот):

- 0,0 до 0,2 Очень слабая корреляция и не значительная;

- 0,2 до 0,4 Слабая, низкая корреляция, не очень значительная;

- 0,4 до 0,7 Умеренная корреляция;

- 0,7 до 0,9 Сильнае, высокая корреляция;

- 0,9 до 1,0 Очень сильная корреляция.

Таблица коэффициентов корреляции валютных пар
Таблица коэффициентов корреляции валютных пар

Пример сильной положительной корреляции между двумя парами валюты: GBP / USD и EUR / USD. Они имеют коэффициент корреляции более 0,90, что означает, что, когда EUR / USD идет вверх, GBP / USD также идет вверх. Известный пример двух противоположных движущихся валютных пар EUR / USD и USD / CHF, они имеют очень высокий коэффициент на -0,90, что означает, что они движутся в противоположном направлении.

Шестимесячная скользящая корреляция валютной пара EUR   USD с другими валютными парами
Шестимесячная скользящая корреляция валютной пара EUR USD с другими валютными парами

Валютные пары положительной корреляции:

- EUR / USD и GBP / USD;

- EUR / USD и NZD / USD;

- GBP / USD и NZD / USD;

- USD / CHF и USD / JPY;

- AUD / USD и GBP / USD;

- AUD / USD и EUR / USD.

Валютные пары положительной корреляции
Валютные пары положительной корреляции

Валютные пары отрицательной корреляции:

- EUR / USD и USD /CHF;

- GBP / USD и USD / JPY;

- GBP / USD и USD / CHF;

- AUD / USD и USD / CAD;

- AUD / USD и USD / JPY.

Валютные пары отрицательной корреляции
Валютные пары отрицательной корреляции

При положительной корреляции, на одной валютной паре открываем ордер на покупку, а на второй на продажу, таким образом мы можем фиксировать прибыль, когда общая прибыль выше убыточной, но в любом случае будет прибыль. Например знаем, что EUR/USD и USD / CHF движутся в противоположном направлении, соответственно по индикаторам находим максимальные отклонения на обоих валютных парах, и входим в рынок, но лучше использовать индикаторы корреляции, некоторые из которых есть на нашем сайте в разделе индикаторов.

Видео 44

Торговля в положительной корреляции ещё называют хеджированием одной валютной паре с другой. Например, трейдер открыл длинные позиции по валютным парам положительной корреляции в одно время. Так как валютные пары движутся в противоположных направлениях, одна из валютных пар делает некоторые убытки, другая пара пойдет в прибыль, и со временем общая прибыль будет значительно больше убыточного ордера.

Валютная корреляция выражается в определенном коэффициенте, значение которого может колебаться от минус одного до плюс одного
Валютная корреляция выражается в определенном коэффициенте, значение которого может колебаться от минус одного до плюс одного

Торговля по отрицательной корреляции, позволяет работать в прибыли сразу на обоих валютных парах, но есть и недостаток, не всегда в момент входа в рынок, мы можем получить прибыль, бывает и так, что при входе в рынок, обе валютные пары нам могут делать убытки, таким образом риск торговли с отрицательной корреляцией, значительно выше торговли с положительной корреляцией. Нет точных инструментов, которые могут показать начало отрицательной корреляции, и это может удвоить убытки, потому что убытки будут сразу на двух валютных парах. Не всегда корреляция бывает отрицательной, бывают дни, когда валютные пары движутся в одном направлении. Вывод: Лучше в торговле использовать положительную корреляцию.

Взаимосвязь золота (GC) и индекса доллара (US DX)
Взаимосвязь золота (GC) и индекса доллара (US DX)

       Корреляция валют

Вычисление корреляций между валютными парами в вашем портфеле - отличный способ оценить инвестиционный риск. Инвестируя в разные пары, вы, возможно, думаете, что диверсифицируете свой портфель, но на самом деле многие из них могут параллельно изменяться в одном или противоположных направлениях. Валютные корреляции бывают сильными и слабыми и могут длиться неделями, месяцами и даже годами. Размер корреляции показывает, насколько близко или насколько противоположно двигались курсы двух пар за конкретный период. Значение корреляции представлено в десятичной форме, и чем оно ближе к 1, тем сильнее взаимозависимость.

Таблица корреляции валют и драгоценных металлов
Таблица корреляции валют и драгоценных металлов

Если неудобно использовать десятичные дроби, то можно выражать корреляцию в процентах, умножив число в таблице на 100 (в нашем случае корреляция между EUR/USD и NZD /USD равна 94%). Высокая корреляция означает, что курсы валютных пар изменяются более или менее синхронно. Низкая корреляция говорит о том, что курсы изменяются по-разному.

Видео 45

Следовательно, высокая корреляция между EUR/USD и NZD - USD указывает на то, что инвестиции и в эти пары приводят к удвоению позиций. Кроме того, не надо открывать длинную позицию по одной паре и короткую по другой, поскольку рост курса первой пары может спровоцировать рост курса второй. В конечном счете, сумма ваших прибылей и убытков не будет равняться нулю, потому что курсы обеих пар в пунктах отличаются. Однако они движутся настолько одинаково, что открытие противоположных позиций может привести к уменьшению прибыли или даже к убыткам.

Основные валютные пары Форекс
Основные валютные пары Форекс

Движение валютных пар оценивают не только с помощью положительной корреляции; отрицательная корреляция также может быть очень полезна. Как и с положительными корреляциями, чем ближе число к -1, тем сильнее связаны колебания курсов двух пар, но на этот раз они изменяются в противоположных направлениях. В качестве примера используем пару EUR/USD. При сильной положительной корреляции между NZD / USD и EUR/USD одновременно у EUR/USD сильная отрицательная корреляция с Доллар - Франк, которая за год составила -0,98, а в месяц -0,99. Эти цифры показывают, что рассматриваемые пары валют имеют сильную тенденцию изменяться в противоположных направлениях. Следовательно, открытие противоположных позиций по данным парам аналогично открытию одинаковых позиций по парам с сильной положительной корреляцией, т. е. оно означает удвоение позиций, что также может привести к увеличению риска портфеля. Но длинная или короткая позиция по обеим парам, скорее всего, будет непродуктивна и приведет к почти нулевой сумме прибылей и убытков, поскольку курсы обеих пар изменяются противоположно. Если одна сторона сделки приносит прибыль, то другая - убытки.

Отнормированные индексы валют ДЦ Альпари
Отнормированные индексы валют ДЦ Альпари

Мы представляем в данной статье исследование величины корреляции между движениями различных валют на январь. Как уже многие обратили внимание, корреляции между различными валютными парами изменяются через какое-то время, поэтому чрезвычайно важно регулярно следовать изменениям в корреляции. В представляемый обзор мы включили 3 месячные и 1-летние корреляции, чтобы трейдеры могли лучше почувствовать исторические тенденции и добавили 6-месячные скользящие корреляции в качестве дальнейшего подтверждения результатов корреляции.

Матрица корреляций - на пересечении соответствующих индексов стоит коэффициент парной корреляци
Матрица корреляций - на пересечении соответствующих индексов стоит коэффициент парной корреляци

Чтобы быть эффективным трейдером, также важно понимать, как различные валютные пары двигаются относительно друг друга. Существует несколько причин, почему это существенно, но наиболее важно то, что это позволяет трейдерам понимать тот риск, которому они подвергаются. Например, портфель, состоящий из EUR/USD и NZD/USD отличается от портфеля, состоящего из EUR/USD и USD/CHF. Как показано в таблицах ниже, за прошлые шесть месяцев, курс EUR/USD имел сильную положительную корреляцию (+0.94) с NZD/USD и сильную отрицательную корреляцию с USD/CHF (-0.85). Поэтому наличие длинной позиции по EUR/USD и длинной по USD/CHF привело бы в общем случае к отрицательной или почти нулевой прибыли, потому что при повышении курса EUR/USD, курс USD/CHF в большинстве случаев снижается. Конечно, эти две валюты имеют различные ценности одного пункта, так что соотношение прибыли к потерям может не быть точно нулевым. С другой стороны, удерживая длинную позицию по EUR/USD и длинную по NZD/USD, это было бы подобно удвоению позиции, поскольку корреляция была очень сильной. Кроме того, из представленных таблиц, мы можем увидеть, что корреляции изменяются со временем. Если валютные пары EUR/USD и GBP/USD имели сильную положительную корреляцию в долгосрочном периоде (то есть 6-месячный и 1-летний период), корреляция не была столь сильной в прошлом месяце (-0.18). Зная об этом, трейдеры могут эффективно диверсифицировать и управлять своими портфелями.

Нахождение значения индекса EURx как среднее арифметическое
Нахождение значения индекса EURx как среднее арифметическое

Изменения, подобно этим, можно частично объяснить изменениями монетарной политики или изменениями внутренних условий. Для Великобритании, ожидания изменения монетарной политики в сторону возможности снижения ставок подтолкнули трейдеров к закрытию длинных позиций по GBPUSD, усиливая движения валютной пары и приводя к нарушению ее корреляции с EURUSD.

Видео 46

Независимо от вашей торговой стратегии и вашего намерения диверсифицировать свои позиции или найти дополнительные валютные пары для торговли, очень важно иметь в виду корреляцию между различными валютными парами и тенденции их изменения. Трейдеру, работающему на форекс, необходимо быть уверенным в характеристиках валютного рынка Forex. Без знания основных тенденций той или иной валютной пары, трейдеры подвергают себя неоправданному риску. Один из самых мощных инструментов для анализа конъюнктуры рынка, которым может вооружиться трейдер на форексе, это историческая корреляция между валютными парами. Понимание закономерностей корреляции позволяет трейдерами не только хеджировать позиции, но и может подсказать момент для открытия сделки.

Индикатор корреляции валютных пар
Индикатор корреляции валютных пар

Термин «корреляция» используется для описания взаимоотношения между двумя связанными переменными. Математически корреляция выражается в диапазоне от +1 до -1. Корреляция +1 означает, что переменные полностью коррелируют, т.е. что движение на 1 пункт по одной валютной паре на другом валютном сегменте также сопровождается движением на 1 пункт в том же самом направлении. Корреляция -1 означает, что две валютные пары движутся в полностью противоположном направлении. Корреляция равная 0 указывает на независимое движение валютных пар и отсутствие в нем взаимосвязи.

Видео 47

Обладание информацией о точной взаимосвязи между валютами бесценно. Многие трейдеры сравнивают графики, накладывая их друг на друга, чтобы выявить корреляцию, однако намного более точным будет определение корреляции при помощи вычислений. Кроме того, хотя и не все это признают, анализ «на глаз» является субъективным и далеко не всегда отражает истинную картину на рынке. Самый простой способ определения корреляции - расчета при помощи пакета анализа данных Microsoft Excel.

Поведение валютной пары EUR JPY
Поведение валютной пары EUR JPY

Microsoft Excel позволяет анализировать корреляцию между двумя валютными парами простым щелчком мыши. Сложность анализа заключается по большей степени в получении данных, а не в их обработке. Если вы имеете доступ к историческим данным, вы можете просто скопировать и вставить их в соответствующую колонку Microsoft Excel. Цены закрытия можно использовать как для дневных, так и для внутредневных диапазонов, главное, чтобы выбранный диапазон совпадал для обеих валютных пар.

Видео 48

После того, как вы разделили данные по двум отдельным колонкам, убедитесь, что программа готова к статистическому анализу. Для этого необходимо зайти в меню Tools и нажать на опцию Data Analysis в выпадающем меню. Если вы не видите Data Analysis, необходимо загрузить пакет для анализа данных, выбрав Add-Ins в том же самом меню. После этого кликните по Analysis Toolpak и следуйте инструкциям.

Поведение валютной пары USD CHF
Поведение валютной пары USD CHF

Теперь выделенные данные готовы для корреляции. Кликнув по меню Tools, выберете в выпадающем меню опцию Data Analysis. Выберете ее. Перед вами появится окно, в который необходимо ввести «входной диапазон». Другими словами, вам надоответить, какие данные будут учитываться в анализе. Убедитесь в том, что вы выбрали колонки, а не ряды групп данных. Кликните мышью и протяните ее по данным, которые будут подвергаться анализу, после чего нажмите OK. Результатом будет таблица, в которой будет определен коэффициент корреляции между двумя валютными парами.

если трейдер идет на покупку EUR USD, то USD CHF в долгосрочной перспективе не рекомендуется покупать
если трейдер идет на покупку EUR USD, то USD CHF в долгосрочной перспективе не рекомендуется покупать

Как было отмечено выше, коэффициент корреляции будет находиться в диапазоне от +1 до -1. +1 указывает на полную позитивную корреляцию, тогда как - 1 на полную негативную корреляцию. На приведенном внизу примере видно, что для выбранного периода позитивная корреляция швейцарского франка и евро составила.9667. Это и не удивительно, хорошо известно, что две эти валютные пары часто двигаются в тандеме. Для наглядности можно нанести полученные данные на график, выбрав опцию Chart. График намного лучше демонстрирует корреляцию между валютными парами. Если на графике видна наклонная восходящая диагональная линия - значит две переменных положительно коррелируют друг с другом. Если на графике видно наклонная нисходящая диагональная линия, значит корреляция между двумя переменными негативная. Случайное распределение точек на графике, на котором нельзя увидеть определенных фигур, указывает на отсутствие корреляции между парами. Корреляция инвестиционных активов является важной характеристикой для оценки актива с целью включения его в портфель. «Это мера, предназначенная для оценки статической зависимости между двумя временными рядами, например доходности некоторого актива и средней рыночной доходности».

Взаимосвязь между EUR USD и AUD USD
Взаимосвязь между EUR USD и AUD USD

Согласно теории ценообразования на капитальные активы (САРМ), премия за риск по активу зависит от параметра «бета» (степени изменчивости актива по отношению к рынку), который, в свою очередь, зависит от перемещений этого актива вместе с портфелем. Чтобы установить премию за риск по тому или иному классу активов, надо оценить, до какой степени взаимосвязаны эти параметры. Такой оценкой является коэффициент корреляции. Это статистическая мера степени корреляции между двумя временными рядами показателей, например ценами на акции в США и Мексике. Коэффициент корреляции принимает значение от минус единицы, что отражает полную отрицательную зависимость, до плюс единицы, что означает, что эти ряды абсолютно положительно зависимы. Нулевая корреляция означает, что ценовые вариации в двух странах абсолютно не связаны. Чем меньше коэффициент корреляции, тем значительнее выгоды от диверсификации. Временные ряды цен акций в различных странах в общем положительно коррелируются, но коэффициент корреляции обычно значительно ниже единицы.

Корреляция EUR USD и  AUD USD
Корреляция EUR USD и AUD USD

В связи с тем что рынок акций США представляет собой значительную часть мирового рынка, коэффициент корреляции американского рынка с мировым сравнительно высокий. Это действительно так, хотя на протяжении ряда лет этот показатель, судя по всему, понижался по мере того, как большее значение приобретали рынки других стран. А это означает, что дальнейшее расширение мирового инвестиционного рынка будет способствовать увеличению эффекта от диверсификации.

Видео 49

Растущая интеграция экономических систем и рынков не означает, что движения активов на разных рынках стали похожими. Из этой интеграции вытекает только то, что потоки капитала встречают сейчас на своем пути меньше препятствий. Многие замечали, что при росте одной валютной пары, другая стремительно падает, и, причем, помимо краткосрочного движения зеркально отражает движение этой пары.

Корреляция пары EUR USD к другим валютным парам
Корреляция пары EUR USD к другим валютным парам

Следует разобраться, почему это происходит и как это может помочь нам в торговле? Если знать корреляцию валютных пар, то полученную информацию можно использовать для эффективного управления своими средствами. Для начала определим, что корреляцией будем называть некое статистическое отношение между двумя ценными бумагами. Коэффициент корреляции расположен между –1 и +1. Когда корреляция показывает +1 – это означает, что 2 валютные пары 100% времени двигаются в одном и том же направлении. И, наоборот, при значении –1 - можно сказать, что 2 валютные пары 100% своего времени двигаются в противоположных направлениях.

Для расчета корреляции могут использоваться различные индикаторы
Для расчета корреляции могут использоваться различные индикаторы

Нулевое же значение сигнализирует об отсутствии закономерности движения между валютными парами. Корреляцию определить легко. Существует так называемый вариант «на глаз» путем наложения графика друг на друга. Этот прием больше является субъективным, и часто может приводить к ошибочным действиям. Например, если я покупаю валютную пару EUR / JPY. То фактически я совершаю операции с парами: EUR/USD и USD-JPY (рис.1). Но это элементарный пример, объясняющий, что все валюты существуют парами.

Динамика EUR USD (белая линия) и AUD USD (коричневая линия) в 2011 году
Динамика EUR USD (белая линия) и AUD USD (коричневая линия) в 2011 году

Но существуют ещё более сложные корреляционные зависимости, которые можно вычислить. Для того, чтобы рассчитать зависимость между валютными парами вам понадобиться Microsoft Exel и несколько простых операций. Для терминала Rate Streamer - это будет выглядеть так: задаем необходимый период для анализа, открываем файл - сохранить как…, открываем Microsoft Exel, данные - внешние данные - импорт текстового файла - загрузка сохраненных ранее котировок, редактируете - и вот готовые исторические котировки, необходимые для анализа.

Видео 50

Правило расчета корреляции: выбрать необходимые для анализа валютные пары, определить необходимый период для анализа, создайте две колонки для каждой пары, заполните их, под одной из колонок напишите функцию корреляции CORREL, выделите анализируемый временной диапазон через запятую, должна получить формула типа: КОРРЕЛ или CORREL (A1:А50, В1:В50), число, которое получиться, и есть долгожданная корреляция.

Динамика EUR USD (белая линия) и NZD USD (желтая линия) в 2011 году
Динамика EUR USD (белая линия) и NZD USD (желтая линия) в 2011 году

       Корреляция индексов фондового рынка

Все в мире взаимосвязано в той или иной степени. И на фондовом рынке есть подобная взаимосвязь различных индексов и показателей, которая называется корреляция. Изучение характера взаимного влияния различных факторов друг на друга и на движение рынка ценных бумаг помогает лучше понимать происходящие процессы и более эффективно управлять портфелем ценных бумаг.

Положительная и отрицательная линейные зависимости
Положительная и отрицательная линейные зависимости

Корреляционный анализ применяется для изучения и прогнозирования движений фондового рынка. Внутренняя корреляция индексов позволяет отслеживать моменты, наиболее благоприятные для применения дисперсионных стратегий опционной торговли. С его помощью мы имеем возможность, например, сопоставить динамику изменения фондовых индексов различных отраслей и стран, установить наличие связи между значениями индексов и происходящими в экономике процессами, с определенной долей вероятности предположить величину и направление изменения цен. Стоит заметить, что для более достоверного отражения связи между переменными величинами как объектом выборки расчетных данных, так и период времени, за который делается выборка, должны быть достаточно велики.

Определение средней доходности ценной бумаги
Определение средней доходности ценной бумаги

Коэффициент корреляции указывает нам на степень согласованности изменения двух величин. Если параметры этих величин изменяются синхронно, то, соответственно, коэффициент равен единице, а в случае независимого изменения параметров - нулю. Когда параметры взаимосвязаны, но изменяются в строго противоположных направлениях, то есть в противофазе, коэффициент корреляции становится отрицательной величиной и равен -1.

Оценивая корреляцию между ведущими фондовыми индексами экономически развитых стран, можно сделать вывод о том, что эти индексы объективно отражают не только процессы, происходящие на уровне национальных экономик, но и на уровне мирового масштаба. Из этого, в свою очередь, можно заключить, что фондовый рынок все более глобализуется и, фактически, представляет собой единое торговое пространство. Общие экономические процессы и представляют собой причину сходной динамики национальных индексов.

Положительная корреляция на фондовом рынке
Положительная корреляция на фондовом рынке

Российский фондовый рынок на современном этапе его развития стоит отнести к развивающимся рынкам. Экономика России не имеет достаточно сильной интеграции со странами Еврозоны, Америки, Азии. Положительная корреляция российских фондовых индексов с индексами развитых стран существует, в основном, в периоды относительной стабильности. Сохраняется положительная корреляция и в периоды кризисов.

Можно заметить, что между российскими и зарубежными индексами сейчас существует достаточно сильная взаимосвязь на небольших временных промежутках. С началом торговой сессии на европейских и американских биржах можно четко проследить такую зависимость, сравнивая графики интересующих нас инструментов. Однако временами, на крупных тайм-фреймах, отмечается отрицательная взаимосвязь.

Отрицательная корреляция на фондовом рынке
Отрицательная корреляция на фондовом рынке

Отрицательная корреляция характерна, в первую очередь, для периодов выхода из кризиса. Мировая экономика сейчас переживает процесс медленного восстановления. Экономика развитых стран оздоравливается как за счет внутренних ресурсов, так и благодаря развивающимся рынкам, что, вероятно, и является причиной отрицательной корреляции. Кроме этого можно отметить взаимосвязь между национальными индексами и мировыми ценами на нефть, золото и курсами основных валют.

Подводя итог, отметим, что методами корреляционного анализа рынка ценных бумаг решаются две основные задачи. Первая – установление взаимосвязи между интересующими нас параметрами. Вторая задача - прогнозирование поведения параметра, коррелирующего с опережающим его иным параметром.

Нулевая корреляция на фондовом рынке
Нулевая корреляция на фондовом рынке

       Корреляция цен товаров и валют

Профессиональные трейдеры мирового валютного рынка давно знают, что торговля валютами требует выхода за пределы самого мира Форекса. Прогнозирование следующего движения цены на финансовом рынке - ключ к зарабатыванию денег. В реальной торговле - трейдинге,- претворить столь простое понятие в жизнь не столь очевидно, как кажется вначале. Известно, что валютами движут многие факторы - спрос и предложение, экономический рост и процентные ставки, политика и природные катаклизмы. Если говорить более определенно, то, поскольку экономический рост и непосредственно экспорт связаны с внутренней промышленностью страны, естественно, что и валюты плотно коррелированны с ценами на товары.

CAD JPY против подстроенных цен на нефть
CAD JPY против подстроенных цен на нефть

В 2005 году нефть и золото (медь, никель, серебро, сахар) зафиксировали новые максимумы за последние 25 и более лет и были двумя крупнейшими стимуляторами движений валют друг относительно друга. Фактически, основная мировая резервная валюта - американский доллар очень по-разному вела себя по отношению к различным валютам именно из-за корреляции отдельной валюты с ценами на товары. Знание того, какая валюта коррелирует с какими товарами и почему, может помочь трейдерам понять и предсказать движения на финансовых рынках.

CAD JPY против неподстроенных цен фьючерса на нефть
CAD JPY против неподстроенных цен фьючерса на нефть

Нефть и канадский доллар. Нефть жизненно необходима всем в мире, по крайней мере, пока, и большинство людей в развитых странах не могут обойтись без нее. В 2005 году цена нефти на пике была почти на 65% выше, чем на начало января того же года. После достижения максимума выше $70 за баррель в августе 2005 года, цена нефти откатилась на 18%, завершив 2005 год приблизительно на 40% выше его начала. Было время, когда мы могли ожидать такую изменчивость только от самых дешевых акций. Рост цен на нефть весьма порадовал нефтепромышленников, добавив жирный куш к их доходам. Потребители же теперь вынуждены экономить на каждом центе. Как чистый экспортер нефти, Канада получила наибольшую прибыль от роста цены нефти, в то время как Япония - основной импортер - оказалась наиболее пострадавшей стороной.

AUD USD против подстроенных цен фьючерса на золото
AUD USD против подстроенных цен фьючерса на золото

За последние три года корреляция между канадским долларом и ценами на нефть составила приблизительно 80%. Канада - девятый по величине производитель нефти в мире, причем она продолжает подниматься вверх по списку, регулярно наращивая производство. В 2000 году Канада обошла Саудовскую Аравию, став основным поставщиком нефти для Соединенных Штатов. Мало кому известно, что величина нефтяных запасов Канады уступает лишь той же Саудовской Аравии. Географическая близость США и Канады вместе с растущей политической нестабильностью на Ближнем Востоке и в Южной Америке делает Канаду одним из наиболее привлекательных мест, откуда США могут импортировать нефть. Но Канада удовлетворяет не только американский спрос. Обширные нефтяные ресурсы страны начинают привлекать внимание Китая, тем более, что Канада недавно обнаружила новое месторождение в Альберте. Все это делает канадский доллар валютой, лучше всего подходящей для извлечения прибыли из продолжающегося роста цен на нефть.

Корреляция между ценой нефти и ценой пары канадский   американский доллар
Корреляция между ценой нефти и ценой пары канадский американский доллар

Из рисунка  ясно видна положительная корреляция между нефтью и канадским луни. Ничего удивительного, что цена нефти фактически работает, как опережающий индикатор для цены CAD/USD. Так как торгующийся инструмент инвертирован - USD/CAD, важно обратить внимание, что, когда цены на нефть повышаются, USD/CAD падает.

Видео 51

Нефть и японская йена. На другом конце спектра располагается Япония, которая импортирует 99% необходимой ей нефти (для сравнения, США импортируют 50%). Это - один из крупнейших в мире чистых импортеров нефти. Нехватка внутренних источников энергии и необходимость импортировать гигантское количество нефти, природного газа и других ресурсов энергии, делают Японию особенно чувствительной к изменениям цен на нефть. В 2003 году зависимость страны от импорта первичных энергоносителей составила более 79%. Нефть обеспечивала Японии 50% от общей потребности в энергии, уголь - 17%, атомная энергия - 14 %, природный газ - 14%, гидроэлектростанции - 4%, а возобновляемые источники - всего 1,1 %. Поэтому, когда цены на нефть растут, японская экономика страдает.

Корреляция между ценой нефти и ценой канадского доллара относительно иены
Корреляция между ценой нефти и ценой канадского доллара относительно иены

С точки зрения чистого экспорта/импорта нефти, наиболее торгуемой парой валют относительно цен на нефть становится канадский доллар против японской иены. Фактически, за последние два года CAD/JPY показал 85%-ную положительную корреляцию с ценами на нефть. На рисунке видно, что цена нефти весьма часто оказывалась опережающим индикатором (как в случае с USD/CAD) для цены CAD/JPY, с существенной задержкой. По мере взлета цены нефти CAD/JPY легко пробил уровень $100 и дошел до максимума $105 перед тем, как развернуться. График «Нефть против CAD/JPY» также ясно показывает отсроченный разворот CAD/JPY - превосходная возможность для сделки.

AUD USD против неподстроенных цен фьючерса на нефть
AUD USD против неподстроенных цен фьючерса на нефть

Золото. Неподготовленный человек может быть чрезвычайно удивлен, услышав, что торговля австралийским долларом в точности соответствует торговле золотом. Как третий по величине производитель золота в мире, Австралия имеет 85%-ную положительную корреляцию с этим драгоценным металлом. Это означает, что, когда золото растет в цене, австралийский доллар от него не отстает. Близость Новой Зеландии и Австралии делает Австралию привилегированным экспортером новозеландских товаров. Поэтому экономика Новой Зеландии тесно связана с австралийской, что объясняет, почему пары NZD/USD и AUD/USD за последние три года показали 96%-ную положительную корреляцию. Довольно интересно, что новозеландский доллар относительно американского (NZD/USD) имеет еще более сильную корреляцию с золотом, чем австралийский против американского доллара (AUD/USD) - эта корреляция составила за последние три года 90%.

Корреляция между ценой золота и ценой пары NZD   USD
Корреляция между ценой золота и ценой пары NZD USD

Более слабая, но все еще значимая корреляция обнаруживается между золотом и швейцарским франком. Политический нейтралитет страны и то, что ее валюта на 40% реально обеспечивается золотом, сделали франк валютой выбора во времена политической нестабильности. С декабря 2002 г. по сентябрь 2005 г. USD/CHF и золото показали 85%-ную положительную корреляцию. Однако эти взаимоотношения несколько нарушились в сентябре 2005 г., когда доллар США немного разошелся с золотом.

CAD JPY против нефтяного фьючерса и индикатор корреляции
CAD JPY против нефтяного фьючерса и индикатор корреляции

Торговля валютами в дополнение к торговле нефтью или золотом. Опытным товарным трейдерам, возможно, стоит рассмотреть валюты, как альтернативу или дополнение к торговле товарами. При торговле валютами в первую очередь необходимо помнить, что национальные банки стран проводят свою собственную, основанную на оценке внутренней экономической ситуации, монетарную политику, эффективно повышая или понижая учетные ставки. Цикл повышения-понижения в разных странах различен. Образуемый дифференциал в процентных ставках - мощный двигательный механизм цикличного усиления-ослабевания той или иной валюты относительно другой. Например, при торговле CAD/JPY трейдер, вставший в длинную позицию (покупка) по CAD/JPY, не только сделал бы хорошую прибыль, но и заработал бы до 3% на процентных ставках. Эти 3% возникают от начисления учетной ставки центрального банка Канады, которая добавляется на счет и вычитания 0%, за продажу японской иены. Это ставки без плеча, и понятно, что с плечом 10, например, доход был бы намного выше.

USD CAD против CFD на нефть
USD CAD против CFD на нефть

Лучший способ использовать товарные цены в торговле состоит в том, чтобы всегда держать в поле зрения движения на нефтяном или золотом рынке, наблюдая, как реагирует на эти движения рынок валют. Из-за несколько отсроченного воздействия этих движений на валютный рынок могут возникать возможности прибыльных сделок.

Видео 52

Международные эксперты и аналитики в настоящее время повышают прогноз стоимости золота до $630 за унцию на 2006 год и до $750 за унцию на 2007 год с $560 и 600 соответственно. В средней и долгосрочной перспективе, по-прежнему, ожидается снижение курса доллара, а также сигнала от Федеральной резервной системы о том, что она завершила цикл ужесточения денежно-кредитной политики. Эксперты также ожидают рост стоимости серебра до $13,4 за унцию в 2006 году и до $15 в 2007 году. Рост стоимости платины ожидается до $1 100 в этом году и до $1 200 в 2007 году.

Корреляция индекса доллара и индекса DJIА
Корреляция индекса доллара и индекса DJIА

Геополитический риск для американского доллара - на опасениях сбоя поставок нефти - несет в себе Иран. Опасения дефицита энергосырья отражает колоссальный рост цен на нефть. Опасения начала боевых действий при участии США отражает рост цен на золото. В этом ключе укрепление евро против доллара отчасти нивелирует негативное влияние увеличения стоимости «черного золота». Для США нефть дорожает сильнее, чем для Европы. Что же касается риска боевых действий, то зоной безопасности выступает не только золото, но и швейцарский франк, дешевая к заимствованию иена и даже евро.

Так что выводы напрашиваются сами собой - стоит возобновить игру на понижение американского доллара против основных мировых валют, как это было эффективно с конца 2001 по конец 2004 годов.

Корреляция канадского доллара и нефти
Корреляция канадского доллара и нефти

       Корреляция цен на продовольственные товары и энергоносители

В связи с засухой, которая наблюдалась с начала 2012г., цены на пшеницу, кукурузу и сою на мировом рынке взлетели к настоящему моменту на 30, 25 и 42%. Эти зерновые традиционно являются кормовыми культурами. Засуха сказывается на состоянии сельскохозяйственных угодий в США, где половина пастбищ находится в очень плохом или неудовлетворительном состоянии, в связи с чем потребность в закупках зерна растет.

Стоит отметить, что рост цен на кукурузу стимулирует еще и тот факт, что в Америке ее все чаще используют в качестве сырья для получения биотоплива, так что значительная часть зерна идет на производство этанола для нужд автомобильной промышленности.

Корреляция цен на нефть Brent и WTI с американским индексом Standard&Poor’s 500
Корреляция цен на нефть Brent и WTI с американским индексом Standard&Poor’s 500

Эксперты HSBС уверены, что именно по этой причине цены на пищевые продукты и энергоносители стали характеризоваться значительно более сильной корреляцией, чем в прошлом. В результате напряженность на Ближнем Востоке в совокупности с низким урожаем способна подтолкнуть вверх цены не только на нефть, но и на продовольственные товары. После снижения до 90 долл./барр. в июне 2012г. цены на "черное золото" к настоящему моменту укрепились почти на 30%. Специалисты напоминают, что в 2008 и 2010гг. давление на сырьевые товары хотя и временно, но смогло ослабнуть.

В 2010г. цены на нефть всего за семь месяцев упали на 35 долл./барр. с уровня 145 долл./барр. Отчасти это позволило смягчить картину, не дав дополнительного импульса к скачку котировок на сельскохозяйственные культуры, передает ИА "Казах-Зерно".

График отношения американского индекса S&P500 к цене на нефть
График отношения американского индекса S&P500 к цене на нефть

Стоит отметить, что ООН в попытках сдержать рост цен на продовольствие призывает правительство США немедленно приостановить государственный мандат на производство этанола. Однако это очень деликатный вопрос, и с учетом приближения выборов президента США, которые состоятся в октябре, неясно, будет ли он решен. Если действие мандата все-таки будет приостановлено, можно будет увидеть снижение цен на продукты питания, которое, однако, будет сопровождаться резким скачком стоимости нефти.

Сравнительная динамика индекса РТС и цен на нефть
Сравнительная динамика индекса РТС и цен на нефть

Котировки золота и серебра на форекс движутся с максимальной степенью синхронности как минимум с 1950 года: потеря доверия к золоту как к средству сбережения оказывает поддержку менее ценному драгметаллу, который более широко применяется в промышленности. “Основная причина усиления корреляции заключается в том, что многие инвесторы больше не считают золото и серебро средством сбережения или способом застраховаться от инфляции и выводят средства в пользу других активов, - говорит аналитик Института международных финансов Bank of China Ltd. Сюй Ихань в Пекине. - Долгосрочные прогнозы зависят от фундаментальной специфики обоих металлов, и, скорее всего, их траектории разойдутся вновь”.

Видео 53

На графике отслеживается динамика золота и серебра за последние 13 лет, а на нижней панели дан коэффициент корреляции цен на оба металла, который на этой неделе вырос до 0,93 по итогам наблюдений за 120-дневный период. Это максимальный уровень как минимум с 1950 года.

Динамика золота и серебра за последние 13 лет
Динамика золота и серебра за последние 13 лет

Золото и серебро обвалились до минимумов почти за три года, после того как глава Федеральной резервной системы Бен Бернанке на прошлой неделе обнародовал потенциальный сценарий выхода США из программы стимулирования, благодаря которой золото достигало пика 12-летнего ралли. Сюй из Bank of China сказал, что эти два металла могут вернуться к более естественной корреляции на уровне примерно 0,6, как только станет понятно, какой следующий шаг предпримет Бернанке. Как только мировая экономика окрепнет, а спрос на промышленные товары повысится, серебро, которое широко используется в таких отраслях, как электроника и производство солнечных батарей, окажется в выигрышном положении, написали в обзоре от 24 июня аналитики UBS AG Эдель Талли и Джони Тевес. Серебро, с начала года демонстрирующее худшую динамику среди сырьевых товаров в индексе Standard & Poor’s GSCI, подешевело на 38 процентов, а котировки золота опустились на 27 процентов. Согласно среднему значению цен за последнюю неделю, золото дороже серебра в 65 раз.

Нарушение корреляции на рынке серебра
Нарушение корреляции на рынке серебра

       Корреляция между ценой на золото и размером процентных ставок

Обратная корреляция цен на золото с процентными ставками - это одна из очень популярных у псевдо-экспертов и  вводящих в заблуждение идей, которая получена из нескольких месяцев любительских наблюдений за рынками.  Логика в этом следующая: вместо того, чтобы купить золото, лучше взять деньги и потратить их на гранд латте по $4.99, так как завтра оно будет стоить $6.99.  В общем, продавайте сейчас.  И на первый взгляд, это даже кажется правильным ходом мыслей.  Жаль, что на самом деле все не так.  Если бы те же самые люди, основывающие свои выводы на четверти бизнес цикла, обладали бы инструментами для увеличения срока своего анализа, то они бы обнаружили, что золото вообще не коррелируется  со ставками на десятилетние облигации (за одним важным исключением).

Корреляция между золотом и десятилетками с 1980 года
Корреляция между золотом и десятилетками с 1980 года

Табличная корреляция между золотом и десятилеткой: нет корреляционного коэффициента
Табличная корреляция между золотом и десятилеткой: нет корреляционного коэффициента

Корреляция между золотом и акциями также отсутствует
Корреляция между золотом и акциями также отсутствует

Почему начинать в 1980 году, спросите вы?  Отличный вопрос.  Потому что если мы пойдем еще чуть-чуть назад, то увидим единственное настоящее исключение из нашего правила…  И оно полностью опровергает устоявшееся заблуждение.  Когда доходность по десятилеткам взорвалась в конце 1979 года и начале 1980 года и лишь вмешательство Пола Волькера (PaulVolcker) в самый последний момент предотвратило неконтролируемый инфляционный эпизод (когда десятилетка сдвинулась 9% до 13% за полгода), цена на золото … удвоилась и достигла исторического максимума с поправкой на инфляцию в $800.  Другими словами, рост ставок породил величайший прорыв золота в истории.

Цена на золото в 1980 году
Цена на золото в 1980 году

Надеемся, что на этом дебаты по поводу корреляции цены на золото со ставками окончены.  Ее нет.  С чем она действительно коррелируется, так это с предрасположенностью американской экономики к слитию в унитаз, и, без сомнения, она взлетит в сравнимой демонстрации самолично введенного золотого стандарта к тому времени, когда следящие за облигациями сделают вывод, что настало время поменять мебель в гостиной.  Ирония в том, что единственное, что действительно может обрушить цену на золото - это, если Бернанке, как и Волькер до него, поступит правильно и проведет величайшее кредитное сжатие в недавней американской истории.  Все остальное - это дым и поддельная корреляция, а что касается вероятности того, что Бернанке начнет поднимать ставки, то ее просто нет.

Доходность десятилеток в 1980 году
Доходность десятилеток в 1980 году

       Корреляция между индексом РТС, индексом S&P500 и ценами на нефть

Наиболее важной для всех трейдеров российского фондового рынка является корреляция между российским рынком, индексом S&P500 и ценами на нефть. Есть полуавтоматические системы (одну из них видел собственными глазами), когда наши трейдеры интуитивно покупают или продают контракты на индекс РТС, глядя только за движением цен на нефть и фьючерсом S&P500.

На самом деле, фундаментально рынки акций являются прежде всего отражением рынка процентных ставок (рынков облигаций). Процентные ставки определяют, в каком направлении текут денежные потоки. Все в финансовом мире зависит от рынка процентных ставок: и валюты (через дифференциалы процентных ставок) и рынки commodities (биржевых товаров) и рынки акций. В этом финансовом мире все взаимосвязано.

Корреляция российского интекса РТС с ценами на нефть
Корреляция российского интекса РТС с ценами на нефть

Американский рынок процентных ставок (облигаций) самый крупный в мире и поэтому он оказывает наибольшее влияние на то, что происходит на других финансовых рынках. Однако эта взаимосвязь очень сложная, и ее трудно отслеживать. Гораздо проще отслеживать другие взаимодействия, более четкие и явные. Российский рынок в «грубом приближении» можно считать деривативом от фьючерса (индекса) S&P500 и цен на нефть.

Видео 54

Вообще, от того, что происходит здесь у нас, в России, - мало что зависит. Редко, когда какое-нибудь событие у нас в России вызовет какую-нибудь заметную реакцию на весь рынок. Я не имею в виду корпоративные новости, хотя и здесь тоже не всегда авария на каком-нибудь предприятии Лукойла отразиться на его акциях, но такая же авария на заводе Exxon (парадокс) вызовет падение акций Лукойла. Зато плохие данные по занятости в США могут устроить настоящий обвал на российском рынке. Такие парадоксов на финансовом рынке полным полно.

График соотношения индекса РТС и цены на нефть (Urals)
График соотношения индекса РТС и цены на нефть (Urals)

Впрочем не одни мы такие. Практически любой фондовый рынок в мире тесно связан с американским фондовым рынком и реагирует прежде всего на то, что происходит там . И здесь помимо фундаментальных причин взаимодействия рынков капитала оказывает сильное влияние также широкое распространение средств автоматической торговли. Это проявляется особенно отчетливо на микроуровне (тики). Каждое тиковое движение индекса S&P500 вверх или вниз тут же отзывается соответствующим изменением индексов FTSE, DAX, ММВБ, Bovespa. Подобная корреляция существует повсеместно и является основой для принятия трейдерами решений.

А как же это проявляется на графиках?

Далее идут несколько графиков, которые показывают, как взаимодействуют между собой индекс S&P500, индекс РТС и цены на нефть. На этих графиках показано изменение S&P500, индекса РТС и цен на нефть в процентах с заданного на графике момента отсчета.

Следование индекса РТС за нефтью
Следование индекса РТС за нефтью

На рисунке выделена ситуация в марте месяце, когда индекс РТС пошел за нефтью, а не за индексом S&P500. Это был период обострения ситуации в Северной Африке и на Среднем Востоке. Повышение цен на нефть негативно отразилось на американском рынке акций, но в то же время привело к ралли на российском фондовом рынке. Обратите внимание еще на один факт: разворот на российском рынке акций почти всегда происходит чуть раньше, чем это делают цены на нефть. На следующем графике показаны те же корреляции с момента выступления Бена Бернанке в Джексонхолле, где он объявил о предстоящей программе QE2.

Корреляции с момента выступления Бена Бернанке в Джексонхолле
Корреляции с момента выступления Бена Бернанке в Джексонхолле

Как мы видим, почти до Нового года S&P500, индекс РТС и нефть двигались практически синхронно. В январе – феврале случилась сезонная коррекция в нефти, но российский рынок продолжал расти вместе с Америкой, осваивая деньги, которые обычно выделяют инвестиционным фондам в начале года. Следующий график показывает те же корреляции с момента пика американского рынка акций в 2007 году. Впечатляющее параболическое ралли в нефти все-таки несильно смогло утащить за собой российский фондовый рынок.

Корреляции с момента пика американского рынка акций в 2007 году
Корреляции с момента пика американского рынка акций в 2007 году

Обращает внимание на этом графике стабильность спрэда между ценами на нефть и индексом РТС. Следующий график показывает нам корреляции с января 2004 года. Инвестирование в американский рынок акций за этот период не принесло никакой прибыли.

Корреляции с января 2004 года - инвестирование в рынок акций не принесло никакой прибыли
Корреляции с января 2004 года - инвестирование в рынок акций не принесло никакой прибыли

И наконец самый впечатляющий график из этой серии: с начала 2000 года.

Нефть и индекс РТС выдали очень сильный рост за период с 2000 года
Нефть и индекс РТС выдали очень сильный рост за период с 2000 года

Как мы видим, в то время как нефть и индекс РТС выдали очень сильный рост за этот период, 450% и 1500% соответственно, американский рынок акций за это время практически не покидал отрицательную зону. Несомненно, есть и другие факторы, которые оказывают влияние на российский рынок акций. Например, курс рубля. Укрепление курса рубля приводит к притоку денег на российский рынок. Увеличение ставки рефинансирования приводит к росту рубля и соответственно способствует росту российского рынка ( обычно оно заранее отыгрывается инсайдерами).

График соотношения цены на нефть и курса доллара к евро
График соотношения цены на нефть и курса доллара к евро

Когда доллар дешевеет относительно рубля, то, если считать, что цены на активы в рублях остаются неизменны, следовательно они должны дорожать относительно доллара и других валют. Возможно, зависимость российского рынка от цен на нефть выражает взаимосвязь рынка с изменением курса национальной валюты с каким-нибудь коррелирующим коэффициентом. Поэтому хотя здесь тоже есть определенная корреляция, заниматься выявлением взаимодействия индекса РТС с курсом рубля или какой-то другой валюты нет смысла.

Видео 55

Вкратце: можно сделать следующие выводы: взаимодействие российского фондового рынка с индексом S&P500 отражает глобальный рыночный сентимент по отношению к фондовым рынкам в целом; взаимодействие с ценами на нефть отражает как традиционное преобладание в российских индексах акций нефтегазового сектора, так и большую часть взаимосвязи с изменением валютных курсов.

Корреляция между индексом ММВБ, СиПи и нефтью
Корреляция между индексом ММВБ, СиПи и нефтью

Существуют и другие корреляции, которые необходимо учитывать при инвестировании в российский фондовый рынок: например взаимодействие российского рынка с притоком/оттоком иностранного капитала.

       Корреляция ценных бумаг

Между доходностями ценных бумаг может наблюдаться функциональная зависимость. Это означает, что существует строгое правило, которое связывает значения их доходностей. Наиболее простой является линейная зависимость. 

На финансовом рынке зависимость между доходностями ценных бумаг часто бывает не функциональной, т. е. не жесткой. В этом случае одному значению доходности одной бумаги могут соответствовать разные значения доходности другой бумаги. Таким образом, не наблюдается строгого закона, который бы связывал значения их доходностей. Зависимость подобного рода называют стохастической или вероятностной, или статистической. Это означает, что при изменении доходности одной бумаги можно говорить лишь о том, какие значения доходности может принять другая бумага и с какой вероятностью. Такое положение вещей объясняется существованием большого количества факторов, влияющих на доходности конкретных активов и тем, что все их сложно учесть.

Пример вариантов портфелей из двух бумаг, в пределах корреляции доходности активов от -1 до +1
Пример вариантов портфелей из двух бумаг, в пределах корреляции доходности активов от -1 до 1

При формировании портфеля степень взаимосвязи между доходностями двух ценных бумаг можно определить с помощью таких показателей как ковариация и коэффициент корреляции.

Ковариация говорит о степени зависимости двух случайных величин. Она может принимать положительные, отрицательные значения и равняться нулю. Если ковариация положительна, это говорит о том, что при изменении значения одной переменной другая имеет тенденцию изменяться в том же направлении. Так, при положительной ковариации доходностей двух бумаг с ростом доходности первой бумаги доходность второй также будет расти. При падении доходности первой бумаги доходность второй также будет снижаться.

Пример вариантов портфелей из двух активов при корреляции доходности меньше +1
Пример вариантов портфелей из двух активов при корреляции доходности меньше 1

При отрицательной ковариации переменные имеют тенденцию изменяться в противоположных направлениях. В таком случае рост доходности первой бумаги будет сопровождаться падением доходности второй бумаги, и наоборот. Чем больше значение ковариации, тем сильнее зависимость между переменными. Если ковариация равна нулю, никакой зависимости между переменными не наблюдается.

Примеры вариантов портфелей с разной степенью корреляции доходности
Примеры вариантов портфелей с разной степенью корреляции доходности

Коэффициент корреляции характеризует степень тесноты линейной зависимости двух переменных и является безразмерной величиной. Тенденция к линейной зависимости двух переменных может иметь более или менее выраженный характер. Поэтому значения коэффициента изменяются в диапазоне от -1 до +1. Если коэффициент равен +1, между доходностями двух бумаг существует положительная функциональная зависимость. Если коэффициент корреляции положительный, но меньше чем +1, между доходностями двух бумаг также существует зависимость, но менее строгая.

Если коэффициент корреляции равен -1, между доходностями бумаг существует отрицательная функциональная зависимость. При коэффициенте корреляции равном нулю никакой зависимости между переменными нет.

Определение ковариаций доходностей трех ценных бумаг
Определение ковариаций доходностей трех ценных бумаг

       Корреляция инвестиций

Многие ли инвесторы - участники нашего форума корректируют свой набор инструментов с использованием диверсификации и корреляции. Думаю, что не многие. Если понятие диверсификации знакомо большинству хотя бы на уровне пословицы: «Не держите все яйца в одной корзине». То понятие корреляции активов, к примеру я, обнаружил совсем недавно.

Составление диверсификации инвестиционного портфеля из активов с некоррелированными результатами уменьшает риск, поскольку в то время, как прибыль на один актив падает, на другой она, вероятно, растет. При попытке строить диверсифицированный инвестиционный портфель из активов с ярко выраженной отрицательной корреляцией мы можем получить неожиданный и очень полезный для нас эффект. Суммарная доходность инвестиционного портфеля может оказаться выше доходности отдельных активов, а соответственно риск может оказаться ниже, чем риск того и другого активов.

Диверсификация инвестиций
Диверсификация инвестиций

О чем говорят данные фондового рынка США по корреляционной зависимости между разными группами активов за 1926 - 2009: взаимная корреляция между акциями малых предприятий и акциями крупных предприятий - (+0.79). Это довольно высокая корреляция. Хотя и не 1. Все-таки крупные акции и малые акции ведут себя несколько по-разному. Между акциями и облигациями корреляция уже близка к нулю.

Корреляции между акциями и краткосрочными облигациями и казначейскими векселями тоже близки к нулю и даже несколько отрицательные.

Облигации друг с другом коррелируются достаточно высоко. Долгосрочные краткосрочные облигации имеют между собой корреляцию 0.8 - 0.9.

Долгосрочные облигации с казначейскими векселями напротив - резкое понижение корреляции.

Основные формы диверсификации
Основные формы диверсификации

Отдельно США, Канада, Япония и Великобритания, отдельно Европа, Азиатский регион и Тихоокеанский регион: корреляция между близко лежащими регионами достаточно высокая. Между Азией и Тихоокеанским регионом корреляция около 0.92. Между Канадой и США также достаточно высокая корреляция. А вот чем дальше друг от друга отстоят регионы, тем ниже между ними корреляция. Даже у Японии с Великобританией или Японии с Канадой и США корреляция меньше чем 0.5. Важно! При желании уменьшить риск инвестиционного портфеля мы можем включать в него акции из разных частей света.

Зависимость между числом эмитентов в портфеле и результатом портфеля
Зависимость между числом эмитентов в портфеле и результатом портфеля

Корреляция между индексом ММВБ, двумя ПИФами УК «Тройка Диалог», золотом, серебром, долларом, евро и московской недвижимостью: корреляция между индексом акций и фондом акций, конечно, высокая. Корреляция между акциями и облигациями где то на уровне 0.5. Между ценными бумагами и золотом корреляция близка к нулю (даже немного отрицательная). Корреляция между золотом и серебром высокая. Поэтому пытаться включать в свой инвестиционный портфель и золото и серебро особого смысла не имеет.

Корреляция между долларом и евро и между акциями и облигациями опять же нулевая или даже отрицательная. Корреляция между жильем и индексом ММВБ в России даже отрицательная (на уровне минус 0.17-0.18). Что, кстати, довольно не типично по мировым меркам.

Выводы: Без правильной диверсификации активов с учетом их взаимной корреляции невозможно сформировать эффективный инвестиционный портфель, который позволит Вам приумножить Ваш капитал или, во всяком, случае сохранить его.

Корреляция инвестиций Японии
Корреляция инвестиций Японии

 

       Корреляция курса доллара и цены на нефть и обратная пропорциональность

Фундаментальные факторы являются основой торговли на рынке форекс, они позволяют установить взаимосвязь курсов валют с теми или иными событиями. В этой статье пойдет речь о корреляции такого показателя как цена на нефть с курсом американского доллара. Экономика США является одной из самых энергозависимых экономик мира. Соединенные Штаты Америки потребляют просто огромное количество нефтепродуктов, поэтому повышение цены на сырую нефть просто не может не сказаться на курсе национальной валюты.

Динамика цен на нефть 2012 года
Динамика цен на нефть 2012 года

Причина подобной связи лежит довольно глубоко, но изменения происходят буквально сразу, так как рынок склонен реагировать еще до фундаментальных изменений на основании психологических факторов. При рассмотрении влияния цены на нефть на курс доллара складывается довольно не однозначная ситуация ведь США являются одним из самых крупных производителей черного золота, в тоже время выступают самым крупным потребителем данного вида сырья.

По статистическим данным экономике Соединенных Штатов не хватает собственных запасов нефти для обеспечения потребностей всего производства, при этом часть добытой нефти внутри страны идет на экспорт. По этой причине Америка вынуждена ежегодно закупать около 9 миллиардов баррелей нефти, что существенно отображается на увеличении стоимости американских товаров как внутри страны, так и на внешних рынках.

Корреляция цены на нефть и валютного курса USD CAD
Корреляция цены на нефть и валютного курса USD CAD

 

А увеличение стоимости товаров, как известно всегда ведет к негативным последствиям для национальной валюты. Кроме этого негативное влияние на курс доллара США так же оказывает то, что для закупки нефти компаниям приходится покупать другие иностранные валюты, так как экспортеры не всегда согласны на расчеты в долларах США. К примеру, ряд арабских стран не так давно полностью перешли в расчетах за нефть на евро. В результате этих двух факторов видим следующую картину, цена на нефть повышается, в результате увеличивается предложение американского доллара на рынке форекс, в результате его курс идет вниз.

Мировая цена на золото и валютная котировка AUD USD имеют прямую корреляцию
Мировая цена на золото и валютная котировка AUD USD имеют прямую корреляцию

В то же время, при падение цены на нефть, наблюдается обратная ситуация, доллар США начинает активно расти по отношению к таким валютам как евро, канадский доллар и некоторым другим валютам. Данную зависимость можно довольно удачно использовать в игре на валютной бирже forex, для торговли самым оптимальным выбором будет пара USD/CAD, так как именно по этому инструменту будут наблюдаться наибольшая волатильность. При возможности можно использовать и такую валютную пару как USD/RUR, она будет реагировать аналогично предыдущему инструменту.

Ордера на покупку открываются в случае подорожания нефти, ордера на продажу - в случае падения цены на черное золото. Так же иногда отслеживается и обратная пропорциональность, при укреплении доллара США начинает заметно падать цена на нефтепродукты и сырую нефть, это свойство можно использовать при торговле на сырьевых ранках.

Валютный курс NZD USD сильно зависит от мировых цен на сырье
Валютный курс NZD USD сильно зависит от мировых цен на сырье

       Корреляция курса рубля и цены на нефть

О войне в Сирии говорят все, кто торгует нефтью. Нефть марки Brent очень долго находилась в диапазоне 100-110 долларов за баррель. Но на вероятности свержения американцами еще одного правительства фьючерс на нефть быстро поднялся до 117 долларов. Потом была логичная коррекция, и сейчас Brent торгуется около 115 долларов.

Как вел себя рубль? Очень часто у аналитиков можно услышать: “Рубль подорожал на фоне роста нефти”, или “рост доллара связан с падением цен на нефть”. Есть ли корреляция курса доллара к рублю и цен на нефть? Есть ли это корреляция сейчас? В этом году? Курс доллара к рублю коррелировал с ценами на нефть до июля, а в июле Brent пошел вверх, а рубль - нет. Почему так произошло?

Курс доллара к рублю скоррелирован с ценами на нефть
Курс доллара к рублю скоррелирован с ценами на нефть

Здесь несколько причин. Во-первых, бюджет, который зависит от цен на нефть и курса доллара к рублю. Этому бюджету чем выше курс доллара и цены на нефть, тем лучше. Во-вторых, не только нефтяники хотят видеть более слабый рубль. Отчетности многих экспортеров “просят” более выгодный для них курс. В-третьих, отток капитала никуда не девался. Отток идет и идет большой. В-четвертых, в курс доллара были еще заложены ожидания по покупке ЦБ РФ валюты для Минфина. В-пятых, доллар сейчас растет по отношению ко всем “слабым” валютам типа рубля (бразильскому риалу или индийской рупии).

Соотношение цен нефти и курса рубля
Соотношение цен нефти и курса рубля

Зависимость бюджета России от сырьевого экспорта стала уже притчей во языцах. Федеральный бюджет на 45 процентов наполняется поступлениями от  продажи нефти и нефтепродуктов. Примерно половина добытой в России нефти (246 млн. тонн) отправляется за границу, а вторая половина перерабатывается на Российских НПЗ. Расчеты по нефти с импортерами проводятся в долларах. В результате, валютные поступления от продажи нефти и определяют курс рубля относительно доллара. Чем больше цена нефти, тем больше долларовых поступлений, тем больше на валютный рынок поступает долларов, тем крепче рубль. И наоборот.

Зависимость пары USD RUB от нефти марки BRENT
Зависимость пары USD RUB от нефти марки BRENT

Наиболее удачное и образное определение стоимости рубля дал Сергей Гуриев, ректор Российской экономической школы: «Российский рубль - это бумажная версия нефти. Какая нефть, такой и рубль». Мы решили проверить, с какой точностью совпадают между собой котировки рубля и доллара.  Графики соотношения «баррель - рубль» за двухлетний период, включающий пик цены на нефть 146 долларов за баррель, пришедшийся налето 2008 года и спад цены до 40 долларов за баррель в зиму 2008-2009 годов, приведен на графике.

Зависимость USD RUB от торгового баланса
Зависимость USD RUB от торгового баланса

Степень соответствия стоимости рубля к цене нефти можно охарактеризовать коэффициентом корреляции, устанавливающим статистическую взаимосвязь этих величин. Коэффициент корреляции (обычно используется коэффициент Пирсона) может принимать значения от минус единицы до единицы. Для независимых между собой процессов (величин) коэффициент корреляции принимает значение, близкое к нулю. И, наоборот, для функционально зависимых друг от друга процессов этот коэффициент приближается к единице или минус единице, в зависимости от сонаправленного или встречного характера движения исследуемых величин.

Динамика корреляции курса доллара к рублю, нефти
Динамика корреляции курса доллара к рублю, нефти

В нашем случае коэффициент корреляции, рассчитанный на периоде в один год (с 01 февраля 2009 года до 01 февраля 2010 года) составляет значение равное по модулю 0,935. Это очень высокая степень соответствия стоимости рубля и цены на нефть: с точки зрения математической статистики, функциональная связь существует. Построим простейшую математическую модель поведения курса рубля относительно доллара, предполагающую линейную зависимость одного от другого.  Зеленая линия на графике отображает моделированное поведение курса рубля.

Не нужно знать слово «корреляция», чтобы оценить столь наглядный результат. Несовпадение с моделью в период максимальных цен на нефть, когда рубль укреплялся и становился тормозом для отечественных экспортеров, объясняется рублевыми интервенциями Центробанка на валютном рынке по сдерживанию усиления курса рубля. И наоборот - интенсивными долларовыми интервенциями при ослаблении рубля в период провальных цен на нефть.

Цены на нефть 2000 года
Цены на нефть 2000 года

Модель позволяет провести оценку будущего курса рубля, например, при цене барреля 90 долларов, курс рубля может подняться до 27 руб/долл., а при цене барреля 50 долларов может опуститься до 35 руб/долл. Следует признать, конкретная модель не учитывает множество факторов, в том числе, как уже показано, и вмешательство ЦБ, но, тем не менее наглядно иллюстрирует общий принцип.

Возникает вопрос, как долго сохранится жесткая связь «баррель-рубль»? Ответ: до тех пор, пока не изменится структура российского экспорта или расчетной валютой по нефтяным контрактам останется доллар.

Высокая корреляция курса рубля к доллару и индекса РТС в 2012 году
Высокая корреляция курса рубля к доллару и индекса РТС в 2012 году

       Корреляция цен на нефть и ВВП России

В своей работе менеджера я постоянно использую различные показатели деятельности (KPI). Меня заинтересовали своего рода KPI макроэкономического уровня. Ранее я рассказал о том, каким является уровень коррупции в России и странах мира по оценкам Центра антикоррупционных исследований и инициатив Transparency International . Затем я рассмотрел динамику еще одного макроэкономического показателя - рейтинга экономической свободы, формируемого Американским исследовательским центром «Фонд наследия» (The Heritage Foundation ) и газетой The Wall Street Journal. И, наконец, представил показатели налоговой нагрузки в странах мира (tax misery), публикуемые журналом Forbes.

Стоимость сырой нефти в США
Стоимость сырой нефти в США

В последнее время в связи с падением цен на нефть заговорили  о возможных проблемах с исполнением бюджета страны. И меня заинтересовал вопрос, насколько тесно коррелируют цены на нефть с макроэкономическими показателями отечественной экономики!?

Существует много различных видов цен на нефть, и данные, на которые я ссылаюсь, не самые распространенные… но, то, как они представлены, насколько полно и удобно, позволяет анализировать их с различных сторон. При том, что корреляция между различными видами цен на нефть, на мой взгляд, полнейшая. Нередко проблемы в экономике страны связывают с именем Ельцина, а успехи - Путина. На первый взгляд, зависимость однозначная, но, как покажет последующий анализ, поверхностная.

Динамика ВВП и периоды правления президентов России
Динамика ВВП и периоды правления президентов России

ВВП России в ценах 2008 года
ВВП России в ценах 2008 года

Корреляция цен на нефть и размера ВВП России  меня просто поразила. Подсчитав коэффициент корреляции, я понял, что означает выражение «на нефтяной игле». Если 97% динамики ВВП России связано с ценой на нефть, то, что остается на другие факторы!? Играют ли они, хоть какую-то роль!?

График корреляции цен на нефть и ВВП России
График корреляции цен на нефть и ВВП России

Не подумайте, что столь высокая корреляция характерна для всех макроэкономических показателей. Так курс доллара показывает всего 50%-ную корреляцию со стоимостью нефти. То есть, только половина изменений курса доллара может быть объяснена мировой конъюнктурой нефтяного рынка.

Корреляция цен на нефть и курса доллара
Корреляция цен на нефть и курса доллара

ВВП США  также демонстрирует весьма умеренную корреляцию с ценами на нефть. Хотя и в США взаимосвязь также весьма тесная.

Корреляция цен на нефть и ВВП США
Корреляция цен на нефть и ВВП США

       Корреляция в психологии

Понятие иллюзорной корреляции. Иллюзорная корреляция (illusory correlation) - это психологическое явление, которое наблюдается практически у всех людей, подобно тому, как практически все люди подвержены иллюзии Мюллера-Лайера и другим оптическим иллюзиям.

Возможно, явление иллюзорной корреляции будет легче понять, если назвать его словами "иллюзия связи", а суть иллюзорной корреляции заключается в том, что человек по той или иной причине видит связь между параметрами, свойствами, явлениями, которой на самом деле нет. Обычно иллюзорная корреляция наблюдается в паре "свойство - признак наличия этого свойства". Например, если человек считает, что цвет волос может говорить о степени умственного развития человека, а жесткость волос - о жесткости характера, то речь идет как раз об иллюзорной корреляции. На самом же деле, понятно, никакой связи между цветом волос и интеллектом или между жесткостью волос и характером нет.

Иллюзорная корреляция в психологии
Иллюзорная корреляция в психологии

Экспериментально явление иллюзорной корреляции впервые исследовал Лорен Чепман (кстати, это однофамилец нашего знаменитого, хотя и провалившегося агента-нелегала Анны Чапман) еще в 1967 году. И именно этот исследователь ввел сам термин "иллюзорная корреляция". Исследование проводилось так. Испытуемым в течение определенного времени предъявлялись (проецировались на экран) пары слов, например, "бекон - яйца". Пары составлялись следующим образом: левым словом оказывалось одно из следующих четырех слов: бекон, лев, бутоны, лодка, а правым - одно из следующих трех слов: яйца, тигр, тетрадь.            

Таким образом испытуемому предъявлялось 12 пар слов: "бекон - яйца", "бекон - тигр", "бекон - тетрадь" и т.д. Причем эти пары слов предъявлялись много раз и чередовались в случайном порядке, но каждая пара предъявлялась равное количество раз.

Испытуемым в течение определенного времени проецировались на экран пары слов, например бекон - яйца
Испытуемым в течение определенного времени проецировались на экран пары слов, например бекон - яйца

Затем испытуемых просили оценить частоту появления каждой пары слов. И это ключевой момент эксперимента. Не смотря на то, что объективно частота предъявления каждой пары слов была одинаковой, более высокой испытуемые объявили частоту предъявления пар слов, имеющих, по выражению автора эксперимента "сильную вербальную ассоциацию". Это следующие пары слов: "бекон - яйца" (ассоциация по смежности) и "лев - тигр" (ассоциация по сходству).

Таким образом, испытуемые имели иллюзорные представления о том, что слово "бекон" теснее связано со словом "яйца", а слово "лев" со словом "тигр", чем другие слова друг с другом. Напомню, что на самом деле каждая из 12 пар слов предъявлялась равное количество раз.

Иллюзорная связь пары слов лев - тигр
Иллюзорная связь пары слов лев - тигр

Итак, при иллюзорной корреляции человек, как говорится, путает Божий дар с яичницей: видит связь там, где ее на самом деле нет.

Иллюзорная корреляция и проективные тесты. Исследовал Лорен Чепман (вместе со своей женой Джин Чепман) и роль иллюзорных корреляций в определении характера человека с помощью так называемых проективных тестов. Исследовались такие проективные тесты как "рисунок человека" и "тест Роршаха".

При этом супругов Чепман интересовал вопрос о том, почему психологи продолжают пользоваться проективными тестами, хотя в научных исследованиях многократно показывалась их несостоятельность как психодиагностического инструмента, т.е. отсутствие связи между предлагаемыми разработчиками этих тестов ключами и интерпретациями с психологическими характеристиками тестируемых индивидов. Чепманы предположили, что подобная настойчивость в использовании не валидных тестов обусловлена явлением иллюзорной корреляции, которому подвержены психологи (как и все люди).

Проективный тест рисунок человека
Проективный тест рисунок человека

Прежде чем перейти к описанию собственно экспериментов необходимо сказать несколько слов о проективных тестах.

Проективные тесты основаны на предположении о том, что при интерпретации бессодержательных визуальных стимулов (кляксы) или при выполнении неопределенного задания (нарисовать человека) испытуемый якобы обязательно проявит свои черты характера. Например, разработчик теста "Рисунок человека" Карен Маховер утверждала, что паранойяльный (подозрительный) субъект при рисовании человека особый акцент придаст глазам, озабоченный своей мужественностью - нарисует мускулистого человека, озабоченный собственным интеллектом - нарисует большую голову и пр. В ключах же к тесту Роршаха утверждается, например, что если человек имеет гомосексуальные склонности, то в кляксах он увидит: ягодицы, задний проход, гениталии, женскую одежду, людей неопределенного пола, людей с признаками обоих полов.

Пример проективного теста
Пример проективного теста

Я думаю, читатель легко заметил, что описанные выше связи между признаками и чертами характера чисто ассоциативные и основаны на бытовых, житейских, тривиальных представлениях. Действительно, почему бы человеку с сомнениями в своей мужественности и не рисовать мускулистых людей, а гомосексуалистам - не видеть в кляксах задние проходы? Но на самом деле никакой связи тут нет.

И Чепманы экспериментально показали что такого рода иллюзорным корреляциям при интерпретации упомянутыхпроективных тестов подвержены и профессиональные психологи, и не имеющие никакого отношения к психологии люди.

Гери Чепмен - известный психолог
Гери Чепмен - известный психолог

Схема эксперимента была несколько похожа на схему эксперимента по выявлению иллюзорных корреляций, который мы рассмотрели выше. Испытуемым предложили рисунки человека, выполненные как пациентами психиатрической клиники, так и здоровыми людьми, и соответствующие психологические характеристики. Например, к рисунку человека с большой головой прилагалась характеристика "обеспокоен уровнем своего интеллекта". При этом, обратите внимание (!), одни и те же психологические характеристики прилагались к разным рисункам. Например, характеристика "относится к людям с недоверием и подозрением" прилагалась как к рисункам с выраженным акцентом на глазах, так и к рисункам, не имеющим каких либо особенностей изображения глаз. Причем таких сочетаний было, как и в уже рассмотренном эксперименте, одинаковое количество.

Психологические характеристики
Психологические характеристики

Испытуемых попросили установить связь между особенностями рисунков и психологическими характеристиками авторов этих рисунков. И как читатель, должно быть, уже догадался, испытуемые продемонстрировали иллюзорную корреляцию: например, утверждали, что такая черта характера как подозрительность сочетается именно с выраженным акцентом на глазах. Более того: такая же картина наблюдалась и в следующей серии экспериметов, в которой эти две характеристики (выраженные глаза и подозрительность) вообще не встречались вместе!

Похожим образом проводился и эксперимент с пятнами Роршаха. К пятнам прилагались интерпретации, сформулированные лицами, прошедшими психодиагностику, и психологические характеристики этих людей. Например, интерпретация "задний проход" равное количество раз совпадала с каждым из следующих четырех психологических характеристик: он проявляет сексуальное влечение к другим мужчинам; он полагает, что окружающие сговорились вокруг него; он испытывает грусть и депрессию в течение длительного времени; он испытывает сильное чувство собственной неполноценности.

Пятна Роршаха - психологический тест
Пятна Роршаха - психологический тест

Как и в предыдущем эксперименте испытуемые вновь продемонстрировали явление иллюзорной корреляции, увязавинтерпретацию "задний проход" с психологической характеристикой "он проявляет сексуальное влечение к другим мужчинам".

Иллюзорная корреляция в нашей жизни. Конечно, иллюзорные корреляции искажают наше с Вами восприятие не только в лабораториях. Например, именно явление иллюзорной корреляции во многом определяет формирование стереотипов по отношению к тем или иным народам или социальным слоям.

Стереотипы
Стереотипы

На иллюзорных корреляциях построены многие лженауки (в особенности лженауки о душе), в частности, физиогномика, соционика, графология, типология преступников Чезаре Ломброзо, френология, измышления Б.Хигира о том, что имя человека определяет его характер, а также явно оккультные учения, такие как хиромантия. Многие аспекты психологического оккультизма также коренятся в иллюзорных корреляциях. На иллюзорных корреляциях основаны и многие представления современного психоанализа и других видов психотерапии (например, когда кашель объявляется проявлением тайного желания сказать гадость, а боль в спине - проявлением тяжелой психологической ноши, которую взвалил на себя человек).

На иллюзорных корреляциях построены многие лженауки
На иллюзорных корреляциях построены многие лженауки

       Корреляция в повседневной жизни

Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядомпричин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.

Корреляция продолжительности жизни и валового национального дохода
Корреляция продолжительности жизни и валового национального дохода

Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.

Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.

Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п.

Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.

Корреляция индекса здоровья и социальных проблем с неравенством доходов
Корреляция индекса здоровья и социальных проблем с неравенством доходов

Другими словами, установив корреляцию переменных мы можем судить не о детерминантах и производных, а лишьо том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.

Видео 56

Не со всеми проблемами можно справиться экспериментальным методом. Существует множество ситуаций, когда исследователь не может контролировать, какие испытуемые попадают в те или иные условия. Например, если надо проверить гипотезу, что люди с анорексией более чувствительны к изменениям вкуса, чем люди с нормальным весом, то не можем же мы собрать группу испытуемых с нормальным весом и потребовать, чтобы у половины из них появилась анорексия! На самом деле нам придется отобрать людей, уже страдающих анорексией, и тех, у кого вес в норме, и проверить, различаются ли они также по вкусовой чувствительности. Вообще говоря, можно использовать метод корреляций, чтобы определить связана ли некоторая переменная, которую мы не можем контролировать, с другой интересующей нас переменной, или, иначе говоря, коррелируют ли они между собой.

Корреляция индекса благополучия детей с неравенством доходов
Корреляция индекса благополучия детей с неравенством доходов

В вышеприведенном примере у переменной веса есть только два значения - нормальный и анорексичный. Чаще случается, что каждая из переменных может принимать много значений, и тогда надо определить, насколько величины одной и другой переменной коррелируют между собой. Определить это может статистический параметр, называемый коэффициентом корреляции и обозначаемый буквой r. Коэффициент корреляции позволяет оценить, насколько связаны две переменные, и выражается числом от -1 до +1. Ноль означает отсутствие связи; полная связь выражается единицей (+1, если отношение положительное, и -1, если оно отрицательное). По мере увеличения r от 0 до 1 сила связи возрастает.

Графики рассеивания, иллюстрирующие корреляцию
Графики рассеивания, иллюстрирующие корреляцию

Графики рассеивания, иллюстрирующие корреляцию. Эти гипотетические данные принадлежат 10 пациентам, каждый из которых имеет некоторое повреждение участков мозга, ответственных, насколько известно, за узнавание лиц. На рисунке пациенты располагаются вдоль горизонтали соответственно объему повреждения мозга, причем самая левая точка показывает пациента с наименьшим повреждением (10%), а самая правая точка показывает пациента с наибольшим повреждением (55%). Каждая точка на графике отражает показатель для отдельного пациента в тесте на узнавание лиц. Корреляция положительная и равна 0,90. На рисунке изображены те же самые данные, но теперь они показывают долю правильных ответов, а не ошибок. Здесь корреляция отрицательная, равная -0,90. На рисунке успехи пациентов в тесте на распознавание отображены в зависимости от их роста. Здесь корреляция равна нулю.

Корреляция индекса здоровья и социальных проблем с валовым национальным доходом
Корреляция индекса здоровья и социальных проблем с валовым национальным доходом

Суть коэффициента корреляции можно пояснить на примере графического представления данных гипотетического исследования. Как показано на рисунке, в исследовании участвуют пациенты, о которых заранее известно, что у них поврежден мозг, и это вызвало разной степени трудности в узнавании лиц (прозопагнозия). Предстоит выяснить, возрастает ли трудность, или ошибка узнавания лиц, с увеличением процента поврежденной мозговой ткани. Каждая точка на графике показывает результат для отдельного пациента при его тестировании на узнавание лиц. Например, пациент с 10%-ным повреждением ошибался в тесте на распознавание лиц в 15% случаев, а пациент с 55%-ным повреждением делал ошибки в 95% случаев. Если бы ошибка узнавания лиц постоянно возрастала с увеличением процента повреждения мозга, точки на графике располагались бы все время выше при движении слева направо; если бы они размещались на диагонали рисунка, коэффициент корреляции был бы r = 1,0. Однако несколько точек расположены по разные стороны этой линии, поэтому корреляция составляет около 90%. Корреляция 90% означает очень сильную связь между объемом поврежденного мозга и ошибками узнавания лиц. Корреляция на рисунке - положительная, поскольку большее повреждение мозга вызывает больше ошибок.

Корреляция индекса благополучия детей с валовым национальным доходом
Корреляция индекса благополучия детей с валовым национальным доходом

Если бы вместо ошибок мы решили отобразить долю правильных ответов в тесте на распознавание, то получили бы график, изображенный нарисунке. Здесь корреляция отрицательная (равная примерно -0,90), поскольку с увеличением повреждения мозга доля правильных ответов уменьшается. Диагональ на рисунке - это просто инверсный вариант той, что на предыдущем рисунке.

Видео 57

Наконец, обратимся к графику на рисунке. Здесь отображена доля ошибок пациентов в тесте на распознавание лиц в зависимости от их роста. Разумеется, нет оснований считать, что доля узнанных лиц связана с ростом пациента, и график подтверждает это. При движении слева направо точки не проявляют согласованного движения ни вниз, ни вверх, а разбросаны вокруг горизонтальной линии. Корреляция равна нулю.

Корреляция доверия большинству людей и неравенства доходов
Корреляция доверия большинству людей и неравенства доходов

Корреляция бывает положительной (+) и отрицательной (-). Знак корреляции показывает, связаны ли две переменные положительной корреляцией (величина обеих переменных растет или уменьшается одновременно) или отрицательной корреляцией (одна переменная растет при уменьшении другой). Предположим, например, что количество пропусков занятий студентом имеет корреляцию -0,40 с баллами в конце семестра (чем больше пропусков, тем меньше баллов). С другой стороны, корреляция между полученными баллами и количеством посещенных занятий будет +0,40. Прочность связи одна и та же, но знак ее зависит от того, считаем ли мы пропущенные или посещенные занятия.

Корреляция психических заболеваний населения с неравенством доходов
Корреляция психических заболеваний населения с неравенством доходов

По мере усиления связи двух переменных r увеличивается от 0 до 1. Чтобы лучше это представить, рассмотрим несколько известных положительных коэффициентов корреляции: коэффициент корреляции между баллами, полученными в первый год обучения в колледже, и баллами, полученными на втором году, составляет около 0,75, корреляция между показателями геста на интеллект в возрасте 7 лет и при повторном тестировании в 18 лет составляет примерно 0,70, корреляция между ростом одного из родителей и ростом ребенка во взрослом возрасте, составляет около 0,50, корреляция между результатами теста на способность к обучению, полученными в школе и в колледже, равна примерно 0,40, корреляция между баллами, полученными индивидуумами в бланковых тестах, и суждением психолога-эксперта об их личностных качествах составляет около 0,25.

Корреляция убийств с неравенством доходов
Корреляция убийств с неравенством доходов

В психологических исследованиях коэффициент корреляции 0,60 и выше считается достаточно высоким. Корреляция в диапазоне от 0,20 до 0,60 имеет практическую и теоретическую ценность и полезна при выдвижении предсказаний. К корреляции от 0 до 0,20 следует относиться осторожно, при выдвижении предсказаний ее польза минимальна.

Видео 58

Тесты. Знакомый пример использования корреляционного метода - тесты по измерению некоторых способностей, достижений и других психологических качеств. При тестировании группе людей, различающихся по какому-нибудь качеству (например, математическим способностям, ловкости рук или агрессивности), предъявляют некоторую стандартную ситуацию. Затем можно вычислить корреляцию между изменениями показателей данного теста и изменением другой переменной. Например, можно установить корреляцию между показателями группы студентов в тесте на математические способности и их оценками по математике при дальнейшем обучении в колледже; если корреляция значительная, то на основе результатов этого теста можно решить, кого из нового набора студентов можно перевести в группу с повышенными требованиями.

Корреляция заключенных с неравенством доходов
Корреляция заключенных с неравенством доходов

Тестирование - важный инструмент психологических исследований. Оно позволяет психологам получать большое количество данных о людях с минимальным отрывом их от повседневных дел и без применения сложного лабораторного оборудования. Построение тестов включает множество этапов, которые мы подробно рассмотрим в последующих главах.

Корреляция процента прекративших обучение в средней школе с неравенством доходов
Корреляция процента прекративших обучение в средней школе с неравенством доходов

Корреляция и причинно-следственные связи. Между экспериментальными и корреляционными исследованиями есть важное различие. Как правило, в экспериментальном исследовании систематически манипулируют одной переменной (независимой) с целью определить ее причинное воздействие на некоторые другие переменные (зависимые). Такие причинно-следственные связи нельзя вывести из корреляционных исследований. Ошибочное понимание корреляции как причинно-следственного отношения можно проиллюстрировать на следующих примерах. Может существовать корреляция между мягкостью асфальта на улицах города и количеством солнечных ударов, случившихся за день, но отсюда не следует, что размягченный асфальт выделяет какой-то яд, приводящий людей на больничную койку. На самом деле изменение обеих этих переменных - мягкости асфальта и числа солнечных ударов - вызывается третьим фактором - солнечным теплом. Еще один простой пример - высокая положительная корреляция между большим количеством аистов, гнездящихся во французских деревнях, и высокой рождаемостью, зарегистрированной там же. Предоставим изобретательным читателям самим догадываться о возможных причинах такой корреляции, не прибегая к постулированию причинно-следственной связи между аистами и младенцами. Эти примеры служат достаточным предостережением от понимания корреляции как причинно-следственного отношения. Если между двумя переменными есть корреляция, изменение одной может вызывать изменения другой, но без специальных экспериментов такой вывод будет неоправданным.

Корреляция социальной мобильности и неравенства доходов
Корреляция социальной мобильности и неравенства доходов

Источники и ссылки

ru.wikipedia.org - свободная энциклопедия Википедия

bank24.ru - круглосуточный банк деловой России

dic.academic.ru - портал словарей и эциклопедий

statsoft.ru - электронный учебник по статистике

superscalper.ru - сервис по скальпингу на FORTS и NYSE

machinelearning.ru - информационно-аналитический ресурс интеллектуального анализа данных

uchebnik.biz - студенческая библиотека гуманитарного направления

testent.ru - образовательный сайт Казахстана

fdvladimir.ru - Финансовый дом "Владимир" - брокер на рынке ценных бумаг

lib.qrz.ru  - электронная библиотека технической направленности

uchimatchast.ru - сайт по прикладной математике

cito-web.yspu.org - Ярославский государственный педагогический университет

math.semestr.ru - он-лайн калькулятор математических и экономических величин

stathelp.ru - статистическая помощь, новости статистики

gaap.ru - теория и практика финансового учета

goldenfront.ru - сайт об инвестициях в золото

newsland.com - новости в России и мире