|
|
|
М.: Издательство «Экзамен», 2004. Приложение 1 Методологические вопросы прикладной статистики При разработке и применении методов прикладной статистики необходимо опираться на четкие методологические принципы, разработанные поколениями специалистов. Рассмотрим некоторые из них. Задача – модель - метод – условия применимости. Разработка и применение методов прикладной статистики предполагает последовательное осуществление трех этапов исследования. Первый - от исходной практической проблемы до теоретической чисто математической задачи. Второй – внутриматематическое изучение и решение этой задачи. Третий – переход от математических выводов обратно к практической проблеме. В литературе вопросы методологии прикладной статистики обсуждаются явно недостаточно. Зато наблюдается поток публикаций, в которых постановки решаемых задач иногда выглядят весьма искусственно. Цель настоящего приложения - обосновать необходимость развития методологии прикладной статистики как самостоятельного научного направления, рассмотреть ряд проблем, относящихся к этому направлению. В области моделирования задач прикладной статистики, как, впрочем, и в иных областях применения математики и кибернетики, целесообразно выделять четверки проблем: ЗАДАЧА – МОДЕЛЬ - МЕТОД - УСЛОВИЯ ПРИМЕНИМОСТИ. Обсудим каждую из только что выделенных составляющих. Задача, как правило, порождена потребностями той или иной прикладной области. Вполне понятно, что при этом происходит одна из возможных математических формализаций реальной ситуации. Например, при изучении предпочтений потребителей у экономистов - маркетологов возникает вопрос: различаются ли мнения двух групп потребителей (см. главу 1.2). При математической формализации мнения потребителей в каждой группе обычно моделируются как независимые случайные выборки, т.е. как совокупности независимых одинаково распределенных случайных величин, а вопрос маркетологов переформулируется в рамках этой модели как вопрос о проверке той или иной статистической гипотезы однородности. Речь может идти об однородности характеристик, например, о проверке равенства математических ожиданий, или о полной (абсолютной однородности), т.е. о совпадении функций распределения, соответствующих двух совокупностям (см. главу 3.1). Задача может быть порождена также обобщением потребностей ряда прикладных областей. Приведенный выше пример иллюстрирует эту ситуацию: к необходимости проверки гипотезы однородности приходят и медики при сравнении двух групп пациентов, и инженеры при сопоставлении результатов обработки деталей двумя способами, и т.д. Таким образом, одна и та же математическая модель может применяться для решения самых разных по своей прикладной сущности задач. Важно подчеркнуть, что выделение перечня задач находится вне математики. Выражаясь инженерным языком, этот перечень является сутью технического задания, которое специалисты различных областей деятельности дают статистикам. Метод, используемый в рамках определенной математической модели - это уже во многом, если не в основном, дело математиков. В моделях прикладной статистики речь идет, например, о методе оценивания, о методе проверки гипотезы, о методе доказательства той или иной теоремы, и т.д. В двух первых случаях алгоритмы разрабатываются и исследуются математиками, но используются прикладниками, в то время как метод доказательства касается лишь самих математиков. Ясно, что для решения той или иной задачи в рамках одной и той же принятой исследователем модели может быть предложено много методов. Приведем примеры. Для специалистов по теории вероятностей и математической статистике наиболее хорошо известна история Центральной Предельной Теоремы теории вероятностей. Предельный нормальный закон был получен многими разными методами, из которых напомним теорему Муавра-Лапласа, метод моментов Чебышева, метод характеристических функций Ляпунова, завершающие эпопею методы, примененные Линдебергом и Феллером. В настоящее время для решения практически важных задач могут быть использованы современные информационные технологии на основе метода статистических испытаний и соответствующих датчиков псевдослучайных чисел. Они уже заметно потеснили асимптотические методы математической статистики. В рассмотренной выше проблеме однородности для проверки одной и той же гипотезы совпадения функций распределения могут быть применены самые разные методы – Смирнова, Лемана - Розенблатта, Вилкоксона и др. (см. главу 3.1). Наконец, рассмотрим последний элемент четверки - условия применимости. Он - полностью внутриматематический. С точки зрения математика замена условия (кусочной) дифференцируемости некоторой функции на условие ее непрерывности может представляться существенным научным достижением, в то время как прикладник оценить это достижение не сможет. Для него, как и во времена Ньютона и Лейбница, непрерывные функции мало отличаются от (кусочно) дифференцируемых функций. Точнее, они одинаково хорошо (или одинаково плохо) могут быть использованы для описания реальной действительности. Точно также прикладник не сможет оценить внутриматематическое достижение, состоящее в переходе от условия конечности четвертого момента случайной величины к условию конечности дисперсии. Поскольку результаты реальных измерений получены с помощью некоторого прибора (средства измерения), шкала которого конечна, то прикладник априори уверен, что все результаты измерений заведомо лежат на некотором отрезке (т.е. финитны). Он с некоторым недоумением наблюдает за математиком, который рассуждает о конечности тех или иных моментов - для прикладника они заведомо конечны. Математики и прикладники. Таким образом, в настоящее время наблюдается значительное расхождение интересов "типового" математика и "типового" прикладника. Конечно, мы рассуждаем здесь, строя гипотетические модели восприятия и поведения того и другого. Опишем эти модели более подробно. Прикладник заинтересован в научно обоснованном решении стоящих перед ним реальных задач. При этом при формализации задач он готов принять достаточно сильные математические предположения. Например, с точки зрения прикладника случайные величины могут принимать конечное множество значений, или быть финитными, или иметь нужное математику число моментов, и т.д. Как говорил А.Н. Колмогоров, переход от дискретности к непрерывности для прикладника оправдан только тогда, когда этот переход облегчает выкладки и расчеты, как в математическом анализе переход от сумм к интегралам облегчает рассуждения и вычисления. Если же при переходе к непрерывности возникают сложности типа необходимости доказательства измеримости тех или иных величин относительно тех или иных сигма-алгебр, то прикладник готов вернуться к постановке задачи с конечным вероятностным пространством. Здесь уместно напомнить, что один из выдающихся вероятностников ХХ в. В. Феллер выпустил свой учебник по теории вероятностей в двух книгах, посвятив первую дискретным вероятностным пространствам, а вторую - непрерывным. Другой пример - задачи оптимизации. Если оптимизация проводится по конечному множеству, то оптимум всегда достигается (хотя может быть не единственным). Если же множество параметров бесконечно, то задача оптимизации может и не иметь решения. Поэтому у прикладника есть стимул ограничиться математическими моделями с конечным множеством параметров. Напомним в связи с этим, что основные задачи прикладной статистики допускают оптимизационную постановку, а статистика объектов нечисловой природы как целое построена на решении оптимизационных задач (а не на суммировании тех или иных выражений, поскольку в пространствах объектов нечисловой природы нет операции сложения). Модель поведения типового математика совершенно иная. Он, как правило, не обдумывает реальные задачи, поскольку не вникает в конкретные прикладные области. (Если же вникает, то является уже не только математиком, но и прикладником, и его поведение промоделировано в предыдущих абзацах.) Математик берет те задачи, которые уже ранее рассматривались, и старается получить для них математически интересные результаты. Зачастую это означает борьбу за ослабление математических условий, при которых были получены предыдущие результаты. При этом математика абсолютно не волнует, имеют ли какое-либо реальное содержание доказанные им теоремы, могут ли они принести какую-либо пользу прикладнику. Его интересует реакция математической общественности, а не реакция прикладников. Сколько реально используется чисел? Для демонстрации разрыва между математиками и прикладниками обратим внимание на два парадокса. Все реальные результаты наблюдений записываются рациональными числами (обычно десятичными числами с небольшим - от 2 до 5 - числом значащих цифр). Как известно, в математике множество рациональных чисел счетно, а потому вероятность попадания значения непрерывной случайной величины в него равно 0. Следовательно, все рассуждения, связанные с моделированием непрерывными случайными величинами реальных результатов наблюдений - это рассуждения о том, что происходит внутри множества меры 0. Первый парадокс состоит в том, что множествами меры 0 в теории вероятностей принято пренебрегать. Другими словами, в точки зрения теории вероятностей всеми реальными данными можно пренебречь, поскольку они входят в одно фиксированное множество меры 0. Глубже проанализируем ситуацию. Сколько всего чисел используется для записи реальных результатов наблюдений? Речь идет о типовых результатах наблюдений, измерений, испытаний, опытов, анализов. Они используются в технических, естественнонаучных, экономических, социологических, медицинских и иных исследованиях. Анализ практики показывает, что эти числа имеют вид (a,bcde)10k. Здесь a принимает значения от 1 до 9, а стоящие после запятой b, c, d, e - от 0 до 9. В то же время показатель степени k меняется от (-100) до +100. Ясно, что общее количество возможных чисел равно 9х104х201=18090000, т.е. меньше 20 миллионов. Итак, второй парадокс, усиливающий первый, состоит в том, что для описания реальных результатов наблюдений вполне достаточно 20 миллионов отдельных символов. Бесконечность натурального ряда и континуум числовой прямой - это математические абстракции, надстроенные над дискретной и состоящей из конечного числа элементов реальностью. (При изменении числа значащих цифр, используемых для описания результатов наблюдений, принципиальный вывод не меняется.) Таким образом, реальные данные лежат не только во множестве меры 0, но и в конечном множестве, причем число элементов в этом множестве вполне обозримо. Практические следствия методологии прикладной статистики. Из сказанного вытекают некоторые вполне определенные выводы, в том числе касающиеся преподавания и научных исследований. Например, преподавание теории вероятностей может быть сосредоточено на случае конечного вероятностного пространства. Бесконечные вероятностные пространства могут при этом рассматриваться как удобные математические схемы. Их роль – давать возможность более легко и быстро получать полезные утверждения для конечных вероятностных пространств. Из сказанного вытекает, в частности, что различные параметрические семейства распределений (семейства нормальных, логарифмически нормальных, экспоненциальных, Коши, Вейбулла-Гнеденко, гамма-распределений) приобретают статус не более чем удобных приближений для распределений на конечных вероятностных пространствах. При таком подходе теряет свою парадоксальность тот эмпирически не раз проверенный факт, что распределение погрешностей измерений, как правило, не является гауссовым (см. главу 2.1). В качестве другого примера рассмотрим методы оценивания параметров. По традиции много внимания в учебных курсах уделяется оценкам максимального правдоподобия (ОМП). Однако столь же хорошие асимптотические свойства имеют т.н. одношаговые оценки, гораздо более простые с вычислительной точки зрения (см. главу 2.2). Целесообразно их включить в учебные курсы, а ОМП исключить. Целесообразно уделять внимание (репрезентативной) теории измерений, в частности, концепции шкал измерения. Необходимо знакомство с определениями и основными свойствами шкал наименований, порядковой, интервалов, отношений, разностей, абсолютной. Установлено, какими алгоритмами статистического анализа данных можно пользоваться в той или иной шкале, в частности, для усреднения результатов наблюдений. Так, для данных, измеренных в порядковой шкале, некорректно вычислять среднее арифметическое. В качестве средних величин для таких данных можно использовать порядковые статистики, в частности, медиану. Статистические методы исследования часто опираются на использование современных информационных технологий. В частности, распределение статистики можно находить методами асимптотической математической статистики, а можно и путем статистического моделирования (метод Монте-Карло, он же - метод статистических испытаний). Методологический анализ - первый этап моделирования задач принятия решений, да и вообще любого исследования. Он определяет исходные постановки для теоретической проработки, а потому во многом и успех всего исследования. Методологический анализ - первый этап статистического исследования. Он определяет исходные постановки для теоретической проработки, а потому во многом и успех всего исследования [1]. Этот этап - один из наиболее важных [2]. Подчеркнем, что анализ динамики развития методов прикладной статистики выделить наиболее перспективные методы. В частности, в работе [3] установлено, что в настоящее время наиболее перспективными являются методы нечисловой статистики. Именно поэтому им уделено большое внимание в настоящем учебнике. Литература 1. Комаров Д.М., Орлов А.И. Роль методологических исследований в разработке методоориентированных экспертных систем (на примере оптимизационных и статистических методов). – В сб.: Вопросы применения экспертных систем. - Минск: НПО «Центрсистем», 1988. С.151-160. 2. Орлов А.И. О развитии методологии статистических методов. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. – Пермь: Изд-во Пермского государственного университета, 2001. – С.118-131. 3. Горский В.Г., Орлов А.И. Математические методы исследования: итоги и перспективы. - Журнал «Заводская лаборатория». 2002. Т.68. № 1. С.108-112.
|