Проблема неоднородности данных ва регрессионном анализе
Глава 1. Теоретический анализ проблемы неоднородности данных в регрессионном анализе
-
- Характеристика регрессионного анализа
Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными.
Возможность одновременного изучения неограниченного количества объектов, а также «прозрачность» техники создали ему репутацию надежного инструмента анализа.
Сильная сторона метода состоит в том, что он направлен не просто на изучение изменений, но на сведение причины и следствия. Иначе говоря, регрессионный анализ отвечает на вопрос: «Влияет ли одна или несколько переменных (потенциальных причин) на другую переменную (результат) и, если да, то в какой степени?».
В данном случае мы ограничимся введением в регрессионное моделирование и рассмотрим наиболее простую модель регрессии – линейную.
Цель регрессионного анализа – установление вида и параметров аналитической зависимости математического ожидания М(у) от уровней одного им нескольких факторов Х, когда результаты эксперимента представлены в виде независимой выборки пар x1y1; x2y2; …; xnyn.
Искомая функция называется моделью регрессионного анализа или регрессионной моделью Y на Х.
Коэффициенты регрессии – параметры установленной регрессионной модели.
Особенность построения регрессионной модели состоит в том, что наличие случайных ошибок измерения (т.е. наличие «шума» в эксперименте) делает неразумным подбор такой формулы, которая точно описывала бы все опытные данные. Другими словами, график искомой функции не должен проходить через все экспериментальные точки (Рис. 1), а должен сглаживать «шум». Основные допущения регрессионного анализа:
1. Отклик Y – случайная величина с нормальным законом распределения. При большом объеме экспериментальных исследований гипотеза о нормальности распределения можно проверить используя критерий х2. Нарушение нормальности распределения величины Y может привести к получению численных оценок, за которыми ничего не стоит.
Рисунок 1 - Пример «сглаживания» экспериментальных данных.
2. Дисперсия Y не зависит от ее абсолютной величины. Т.е. погрешность измерения величины отклика подчиняется нормальному закону распределения с математическим ожиданием равным нулю. Верны гипотеза однородности дисперсии в разных точках факторного пространства.
3. Значения факторов неслучайные величины, некоррелированны между собой. Обозначим выбранную функциональную зависимость в виде:
y= f (x, a0, a1, …, an),
где a0, a1, …, an – параметры регрессионной модели, подлежащие определению.
Если нет теоретических соображений о виде регрессионной модели, то ее представляют в виде полинома: y = , в случае линейной модели: y = a0 + a1x , в виде степенного ряда, в виде тригонометрического ряда, в виде суммы ортогональных многочленов Чебышева.
Для нахождения параметров регрессионной модели используют метод наименьших квадратов.
Содержание метода наименьших квадратов. Поиск параметров регрессионной модели состоит в нахождении минимума следующей функции: – для случая если все
измерены с одинаковой точностью, или:
- для случая неравноточных измерений, где
– веса измерений.
Если все измерения отклика проведены с одинаковой точностью, но при различном числе измерений
при каждом значении
, то весами измерений могут служить количества измерений в сериях
(к=1,2,…,N)/
Минимум функции S означает равенство нулю всех частных первых производных данной функции:
Таким образом, для (n+1) неизвестного имеем систему (n+1) уравнений.
Если в регрессионную модель параметры входят линейно, то последняя система уравнений будет также линейна относительно этих параметров.
-
- Проблема неоднородности данных
В ходе сбора исходных статистических данных для проведения регрессионного анализа может оказаться, что значения измеренных факторов (результативной и объясняющих переменных) зависит от некоторого качественного признака (одного или нескольких), в результате которого происходят скачкообразные движения структуры анализируемых связей, то есть значения оценок коэффициентов регрессии. Исходные статистические данные называются неоднородными в регрессионном смысле, если они зарегистрированы при различных условиях. Если не принимать во внимание отмеченные различия и попытаться строить единую модель, то, очевидно, что ее уравнению будет соответствовать линия, проходящая между линиями, характеризующими реальные тенденции процесса в рассматриваемом периоде.
Очевиден первый подход, который заключается в том, что мы разбиваем имеющиеся в нашем распоряжении исходные статистические данные на однородные группы (подвыборки), то есть на такие, внутри каждой из которых значение качественной переменной не меняется при переходе от одного наблюдения к другому.
Затем оцениваются значения коэффициентов регрессии по каждой из таких подвыборок.
Тогда для каждого фиксированного сочетания градаций качественной переменной будет определена своя однородная подвыборка объемом меньше , и каждой такой подвыборке будет соответствовать своя искомая функция регрессии.
Однако, данный подход не всегда дает наилучшее решение, а в определенных условиях вообще не может привести к удовлетворительному решения.
В случае, если качественные переменные не наблюдаемы, либо их значения не были своевременно зарегистрированы, то прямое разбиение выборки на регрессионные однородные подвыборки невозможно и с этой целью приходиться привлекать методы кластерного и дискриминантного анализа в пространстве .
Если качественный признак наблюдаем, но прямое разбиение выборки на регрессионные однородные группы приводит к слишком малым подвыборкам, то есть к таким подвыборкам, объем которых оказывается недостаточным для статистической надежности оценки искомой функции регрессии, то в этом случае используется поход, связанный с введением фиктивных переменных (манекенов).
Учет влияния качественных переменных в этом случае осуществляют с помощью введения в регрессионное уравнение определенного числа фиктивных переменных, которых могут принимать одно из двух возможных значений:
Если качественный признак имеет «l» уровней, то число вводимых фиктивных переменных должно быть на единицу меньше, т.е. (l-1), при этом каждая из фиктивных переменных принимает значение 0 или
Использование этого приема в большинстве случаев оказывается удобным и выгодным в двух отношениях:
- повышается статистическая надежность, то есть точность полученных оценок коэффициентов регрессии;
- появляется возможность одновременно проверять гипотезу о наличии или отсутствии статистически значимого влияния качественных переменных на структуру анализируемой модели, если окажется, что коэффициенты при фиктивных переменных незначимо отличны от нуля, то изменение значений качественной переменной не влечет за собой неоднородности соответствующих исходных статистических данных.
Список литературы
- Мещеряков, В. В. Задачи по статистике и регрессионному анализу с MATLAB / В.В. Мещеряков. - М.: Диалог-Мифи, 2015. - 448 c.
- Соколов, Г. А. Введение в регрессионный анализ и планирование регрессионных экспериментов в экономике / Г.А. Соколов, Р.В. Сагитов. - М.: ИНФРА-М, 2010. - 208 c.
- Такахаси, Син Занимательная статистика. Регрессионный анализ. Манга / Син Такахаси. - М.: Додэка, ДМК Пресс, 2015. - 216 c.