Орлов А.И. Прикладная статистика
М.: Издательство «Экзамен», 2004.    
 
Часть 3. Методы прикладной статистики


3.2.3. Основы линейного регрессионного анализа

Метод наименьших квадратов, рассмотренный в простейшем случае, допускает различные обобщения. Например, метод наименьших квадратов дает алгоритм расчетов, если исходные данные – по-прежнему набор n пар чисел (tk , xk), k = 1,2,…,n, где tk – независимая переменная (например, время), а xk – зависимая (например, индекс инфляции), а восстанавливать надо не линейную зависимость, а квадратическую:

Следует рассмотреть функцию трех переменных

Оценки метода наименьших квадратов - это такие значения параметров a*, b* и с*, при которых функция f(a,b,с)достигает минимума по всем значениям аргументов. Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b,с) по аргументам a, b и с, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:

Приравнивая частную производную к 0, получаем линейное уравнение относительно трех неизвестных параметровa,b,c:

Приравнивая частную производную по параметру b к 0, аналогичным образом получаем уравнение

Наконец, приравнивая частную производную по параметру с к 0, получаем уравнение

Решая систему трех уравнений с тремя неизвестными, находим оценки метода наименьших квадратов.

Другие задачи, рассмотренные в предыдущем подразделе (доверительные границы для параметров и прогностической функции и др.), также могут быть решены. Соответствующие алгоритмы более громоздки. Для их записи полезен аппарат матричной алгебры (см., например, одну из лучших в этой области монографий [5]). Для реальных расчетов используют соответствующие компьютерные программы.

Раздел прикладной статистики, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин «линейный регрессионный анализ» используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится.

Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома)

то коэффициенты многочлена могут быть найдены путем минимизации функции

Функция от t не обязательно должна быть многочленом. Можно, например, добавить периодическую составляющую, соответствующую сезонным колебаниям. Хорошо известно, например, что инфляция (рост потребительских цен) имеет четко выраженный годовой цикл. А именно, в среднем цены быстрее всего растут зимой, в декабре - январе, а медленнее всего (иногда в среднем даже падают) летом, в июле - августе. Пусть для определенности

тогда неизвестные параметры могут быть найдены путем минимизации функции

Пусть I(t) -индекс инфляции в момент t. Принцип стабильности условий приводит к гипотезе о постоянстве темпов роста средних цен, т.е. индекса инфляции. Таким образом, естественная модель для индекса инфляции - это

Эта модель не является линейной, метод наименьших квадратов непосредственно применять нельзя. Однако если прологарифмировать обе части предыдущего равенства:

то получим линейную зависимость, рассмотренную выше.

Независимых переменных может быть не одна, а несколько. Пусть, например, по исходным данным требуется оценить неизвестные параметры a и b в зависимости

где - погрешность. Это можно сделать, минимизируя функцию

Зависимость от х и у не обязательно должна быть линейной. Предположим, что из каких-то соображений известно, что зависимость должна иметь вид

тогда для оценки пяти параметров необходимо минимизировать функцию

Более подробно рассмотрим пример из микроэкономики. В одной из оптимизационных моделей поведения фирмы используется т.н. производственная функция f(K,L), задающая объем выпуска в зависимости от затрат капиталаK и труда L. В качестве конкретного вида производственной функции часто используется так называемая функция Кобба-Дугласа

Однако откуда взять значения параметров и ? Естественно предположить, что они - одни и те же для предприятий отрасли. Поэтому целесообразно собрать информацию где fk - объем выпуска на k-ом предприятии, Kk- объем затрат капитала на k-ом предприятии, Lk - объем затрат труда на k-ом предприятии (в кратком изложении не пытаемся дать точных определений используемым понятиям из экономики предприятия). По собранной информации естественно попытаться оценить параметры и . Но они входят в зависимость нелинейно, поэтому сразу применить метод наименьших квадратов нельзя. Помогает логарифмирование:

Следовательно, целесообразно сделать замену переменных

а затем находить оценки параметров и , минимизируя функцию

Найдем частные производные:

Приравняем частные производные к 0, сократим на 2, раскроем скобки, перенесем свободные члены вправо. Получим систему двух линейных уравнений с двумя неизвестными:


Таким образом, для вычисления оценок метода наименьших квадратов необходимо найти пять сумм

Для упорядочения расчета этих сумм может быть использована таблица типа той, что применялась выше. Отметим, что рассмотренная в предыдущем подразделе постановка переходит в разбираемую сейчас при

Подходящая замена переменных во многих случаях позволяет перейти к линейной зависимости. Например, если

то замена z=1/y приводит к линейной зависимости z = a + bx. Если y=(a+bx)2, то замена приводит к линейной зависимости z = a + bx.

Основной показатель качества регрессионной модели. Одни и те же данные можно обрабатывать различными способами. На первый взгляд, показателем отклонений данных от модели может служить остаточная сумма квадратов SS. Чем этот показатель меньше, тем приближение лучше, значит, и модель лучше описывает реальные данные. Однако это рассуждение годится только для моделей с одинаковым числом параметров. Ведь если добавляется новый параметр, по которому можно минимизировать, то и минимум, как правило, оказывается меньше.

В качестве основного показателя качества регрессионной модели используют оценку остаточной дисперсии

скорректированную на число m параметров, оцениваемых по наблюдаемым данным. В случае задачи восстановления линейной функции одной переменной, рассмотренной в предыдущем подразделе, оценка остаточной дисперсии имеет вид

поскольку число оцениваемых параметров m=2.

Почему эта формула отличается от приведенной в предыдущем подразделе? Там в знаменателе n, а здесь - (n-2). Дело в том, что там была рассмотрена непараметрическая теория при большом объеме данных (при . А при безграничном возрастании n разница между n и (n-2) сходит на нет.

Однако при подборе вида модели знаменатель дроби, оценивающей остаточную дисперсию, приходится корректировать на число параметров. Если этого не делать, то придется заключить, что всегда многочлен второй степени лучше соответствует данным, чем линейная функция, многочлен третьей степени лучше приближает исходные данные, чем многочлен второй степени, и т.д. В конце концов доходим до многочлена степени (n-1) с nкоэффициентами, который проходит через все заданные точки. Но его прогностические возможности, скорее всего, существенно меньше, чем у линейной функции. Излишнее усложнение статистических моделей вредно.

Типовое поведение скорректированной оценки остаточной дисперсии

в зависимости от параметра m в случае расширяющейся системы моделей выглядит так. Сначала наблюдаем заметное убывание. Затем оценка остаточной дисперсии колеблется около некоторой константы (теоретического значения дисперсии погрешности).

Поясним ситуацию на примере модели восстановления зависимости, выраженной многочленом:

Пусть эта модель справедлива при При в скорректированной оценке остаточной дисперсии учитываются не только погрешности измерений, но и соответствующие (старшие) члены многочлена (предполагаем, что коэффициенты при них отличны от 0). При имеем

Следовательно, скорректированная оценка остаточной дисперсии будет колебаться около указанного предела. Поэтому в качестве оценки неизвестной статистику степени многочлена (полинома) можно использовать первый локальный минимум скорректированной оценки остаточной дисперсии, т.е.

В работе [6] найдено предельное распределение этой оценки степени многочлена.

Теорема. При справедливости некоторых условий регулярности

где

Таким образом, предельное распределение оценки m* степени многочлена (полинома) является геометрическим. Это означает, в частности, что оценка не является состоятельной. При этом вероятность получить меньшее значение, чем истинное, исчезающе мала. Далее имеем:

Разработаны и иные методы оценивания неизвестной степени многочлена, например, путем многократного применения процедуры проверки адекватности регрессионной зависимости с помощью статистики Фишера (см. работу [7]). Предельное поведение оценок - таково же, как в приведенной выше теореме, только значение параметра иное.

Пример практического использования линейного регрессионного анализа. Руководитель маркетинговой службы новгородского завода ГАРО А.А. Пивень применил его для построения математической модели рынка легковых подъемников. Требуется выявить факторы (показатели), оказывающие наибольшее влияние на объем продаж подъемников, найти зависимость объема продаж от этих факторов и использовать эту зависимость для прогнозирования объема продаж.

Зависимая переменная – объем продаж V, независимые переменные:

- грузоподъемность (X1),

- цена (X2)

- наличие напольной рамы (X3),

- наличие синхронизации (X4),

- количество двигателей (X5),

- суммарная мощность двигателей (X6),

- высота подхвата в нижнем положении (X7),

- максимальная высота подъема (X8),

- скорость подъема (X9),

- гарантийный срок (X10),

- срок службы (X11),

- время на рынке (X12),

- внешний вид (X13),

- срок поставки (X14),

- уровень сервисного обслуживания (X15),

- наличие системы смазки (X16),

- масса (X17).

Для восстановления зависимости использовалась линейная регрессионная модель. По результатам пошагового анализа из рассмотрения последовательно исключались независимые переменные (параметры подъемника), имеющие (в линейной модели) коэффициенты, незначимо отличающиеся от нуля, иными словами, мало отличающиеся в сравнении с их дисперсией. Для этого использовался пакет STATISTICA 6.0, конкретно модуль «Множественная регрессия» (Multiple regression).

В результате расчетов получена зависимость объема продаж подъемника П3-Т от 12 факторов:

V = - 1769.77 - 65.09 X1 - 0.03X2 + 68.79X3 + 147.54X4 + 156.28X5 + 2.53X7 + 1.06X8 + 25.75X12 - 132.26X13 - 12.41X14 + 107.78X15 + 397X16 .

Влияние остальных пяти факторов оказалось незначимым.

Исходя из расчетов, прогнозное значение продаж подъемников на второй год продаж составит ориентировочно 1010 шт. С вероятностью 95% можно утверждать, что объем продаж будет лежать в границах [695, 1332] шт.

Оценивание условного математического ожидания. Рассмотрим общее понятие регрессии как условного математического ожидания. Пусть случайный вектор имеет плотность p(x,y). Как известно из любого курса теории вероятностей, плотность условного распределения при условии имеет вид

Условное математическое ожидание, т.е. регрессионная зависимость y от x, имеет вид

Таким образом, для нахождения оценок регрессионной зависимости достаточно найти оценки совместной плотности распределения вероятности такие, что

при Тогда непараметрическая оценка регрессионной зависимости

при является состоятельной оценкой регрессии как условного математического ожидания

Общий подход к построению непараметрических оценок плотности распределения вероятностей развит в главе 2.1 выше.

Регрессионному анализу (т.е. методам восстановления зависимостей) посвящена огромная литература. Он хорошо представлен в программных продуктах по анализу данных, особенно та его часть, которая связана с методом наименьших квадратов. Обзор современных методов и моделей дан в учебнике [6].

Предыдущая страница | Оглавление | Следующая страница



Защита от автоматического заполнения   Введите символы с картинки*