А.И. Орлов
Теория принятия решений
Учебное пособие. - М.: Издательство "Март", 2004.

4. МОДЕЛИРОВАНИЕ В ТЕОРИИ ПРИНЯТИИ РЕШЕНИЙ
 

4.1. Основы моделирования

4.1.4. О методологии моделирования

Задача – модель - метод – условия применимости. Применение моделирования при принятии решений предполагает последовательное осуществление трех этапов исследования. Первый - от исходной практической проблемы до теоретической чисто математической задачи. Второй – внутриматематическое изучение и решение этой задачи. Третий – переход от математических выводов обратно к практической проблеме. Выбирая свой путь в мире исследований по теории и практике принятия решений, приходится обдумывать и решать вопросы, относящиеся к методологии науки.

В литературе вопросы методологии моделирования обсуждаются явно недостаточно. Зато наблюдается поток публикаций, в которых постановки решаемых задач иногда выглядят весьма искусственно. Цель настоящей подраздела - обосновать необходимость развития методологии моделирования статистических методов как самостоятельного научного направления, рассмотреть ряд проблем, относящихся к этому направлению.

В области моделирования задач принятия решений, как, впрочем, и в иных областях применения математики, целесообразно выделять четверки проблем:

ЗАДАЧА – МОДЕЛЬ - МЕТОД - УСЛОВИЯ ПРИМЕНИМОСТИ.

Обсудим каждую из только что выделенных составляющих.

Задача, как правило, порождена потребностями той или иной прикладной области. Вполне понятно, что при этом происходит одна из возможных математических формализаций реальной ситуации. Например, при изучении предпочтений потребителей у экономистов - маркетологов возникает вопрос: различаются ли мнения двух групп потребителей. При математической формализации мнения потребителей в каждой группе обычно моделируются как независимые случайные выборки, т.е. как совокупности независимых одинаково распределенных случайных величин, а вопрос маркетологов переформулируется в рамках этой модели как вопрос о проверке той или иной статистической гипотезы однородности. Речь может идти об однородности характеристик, например, о проверке равенства математических ожиданий, или о полной (абсолютной однородности), т.е. о совпадении функций распределения, соответствующих двух совокупностям.

Задача может быть порождена также обобщением потребностей ряда прикладных областей. Приведенный выше пример иллюстрирует эту ситуацию: к необходимости проверки гипотезы однородности приходят и медики при сравнении двух групп пациентов, и инженеры при сопоставлении результатов обработки деталей двумя способами, и т.д. Таким образом, одна и та же математическая модель может применяться для решения самых разных по своей прикладной сущности задач.

Важно подчеркнуть, что выделение перечня задач находится вне математики. Выражаясь инженерным языком, этот перечень является сутью технического задания, которое специалисты различных областей деятельности дают статистикам.

Метод, используемый в рамках определенной математической модели - это уже во многом, если не в основном, дело математиков. В эконометрических моделях речь идет, например, о методе оценивания, о методе проверки гипотезы, о методе доказательства той или иной теоремы, и т.д. В первых двух случаях алгоритмы разрабатываются и исследуются математиками, но используются прикладниками, в то время как метод доказательства касается лишь самих математиков.

Ясно, что для решения той или иной задачи в рамках одной и той же принятой исследователем модели может быть предложено много методов. Приведем примеры. Для специалистов по теории вероятностей и математической статистике наиболее хорошо известна история Центральной Предельной Теоремы теории вероятностей. Предельный нормальный закон был получен многими разными методами, из которых напомним теорему Муавра-Лапласа, метод моментов Чебышева, метод характеристических функций Ляпунова, завершающие эпопею методы, примененные Линдебергом и Феллером. В настоящее время для решения практически важных задач могут быть использованы современные информационные технологии на основе метода статистических испытаний и соответствующих датчиков псевдослучайных чисел. Они уже заметно потеснили асимптотические методы математической статистики. В рассмотренной выше проблеме однородности для проверки одной и той же гипотезы совпадения функций распределения могут быть применены самые разные методы – Смирнова, Лемана - Розенблатта, Вилкоксона и др. [4].

Наконец, рассмотрим последний элемент четверки - условия применимости. Он - полностью внутриматематический. С точки зрения математика замена условия (кусочной) дифференцируемости некоторой функции на условие ее непрерывности может представляться существенным научным достижением, в то время как прикладник оценить это достижение не сможет. Для него, как и во времена Ньютона и Лейбница, непрерывные функции мало отличаются от (кусочно) дифференцируемых. Точнее, они одинаково хорошо (или одинаково плохо) могут быть использованы для описания реальной действительности.

Точно также он не сможет оценить внутриматематическое достижение, состоящее в переходе от конечности четвертого момента случайной величины к конечности дисперсии. Поскольку результаты реальных измерений получены с помощью некоторого прибора (средства измерения), шкала которого конечна, то прикладник априори уверен, что все результаты измерений заведомо лежат на некотором отрезке (т.е. финитны). Он с некоторым недоумением наблюдает за математиком, который рассуждает о конечности тех или иных моментов - для прикладника они заведомо конечны.

Математики и прикладники. Таким образом, в настоящее время наблюдается значительное расхождение интересов "типового" математика и "типового" прикладника. Конечно, мы рассуждаем, строя гипотетические модели восприятия и поведения того и другого. Опишем эти модели более подробно.

Прикладник заинтересован в научно обоснованном решении стоящих перед ним реальных задач. При этом при формализации задач он готов принять достаточно сильные математические предположения. Например, с точки зрения прикладника случайные величины могут принимать конечное множество значений, или быть финитными, или иметь нужное математику число моментов, и т.д. Переход от дискретности к непрерывности для прикладника оправдан только тогда, когда этот переход облегчает выкладки и расчеты, как в математическом анализе переход от сумм к интегралам облегчает рассуждения и вычисления. Если же при переходе к непрерывности возникают сложности типа необходимости доказательства измеримости тех или иных величин относительно тех или иных сигма-алгебр, то прикладник готов вернуться к постановке задачи с конечным вероятностным пространством. Здесь уместно напомнить, что один из выдающихся вероятностников ХХ в. В. Феллер выпустил свой учебник по теории вероятностей в двух книгах, посвятив первую дискретным вероятностным пространствам, а вторую - непрерывным.

Другой пример - задачи оптимизации. Если оптимизация проводится по конечному множеству, то оптимум всегда достигается (хотя может быть не единственным). Если же множество параметров бесконечно, то задача оптимизации может и не иметь решения. Поэтому у прикладника есть стимул ограничиться математическими моделями с конечным множеством параметров. Напомним в связи с этим, что основные задачи прикладной статистики допускают оптимизационную постановку, а статистика объектов нечисловой природы в целом построена на решении оптимизационных задач (а не на суммировании тех или иных выражений, поскольку в пространствах объектов нечисловой природы нет операции сложения).

Модель поведения типового математика совершенно иная. Он, как правило, не обдумывает реальные задачи, поскольку не вникает в конкретные прикладные области. (Если же вникает, то является уже не только математиком, но и прикладником, и его поведение промоделировано в предыдущих абзацах.) Математик берет те задачи, которые уже ранее рассматривались, и старается получить для них математически интересные результаты. Зачастую это означает борьбу за ослабление математических условий, при которых были получены предыдущие результаты. При этом математика абсолютно не волнует, имеют ли какое-либо реальное содержание доказанные им теоремы, могут ли они принести какую-либо пользу прикладнику. Его интересует реакция математической общественности, а не реакция прикладников.

Сколько реально используется чисел? Для демонстрации разрыва между математиками и прикладниками обратим внимание на два парадокса.

Все реальные результаты наблюдений записываются рациональными числами (обычно десятичными числами с небольшим - от 2 до 5 - числом значащих цифр). Как известно, в математике множество рациональных чисел счетно, а потому вероятность попадания значения непрерывной случайной величины в него равно 0. Следовательно, все рассуждения, связанные с моделированием непрерывными случайными величинами реальных результатов наблюдений - это рассуждения о том, что происходит внутри множества меры 0. Первый парадокс состоит в том, что множествами меры 0 в теории вероятностей принято пренебрегать. Другими словами, в точки зрения теории вероятностей всеми реальными данными можно пренебречь, поскольку они входят в одно фиксированное множество меры 0.

Глубже проанализируем ситуацию. Сколько всего чисел используется для записи реальных результатов наблюдений? Речь идет о типовых результатах наблюдений, измерений, испытаний, опытов, анализов. Они используются в технических, естественнонаучных, экономических, социологических, медицинских и иных исследованиях. Анализ практики показывает, что эти числа имеют вид (a,bcde)10k. Здесь a принимает значения от 1 до 9, а стоящие после запятой b, c, d, e - от 0 до 9. В то же время показатель степени k меняется от (-100) до +100. Ясно, что общее количество возможных чисел равно 9х104х201=18090000, т.е. меньше 20 миллионов.

Итак, второй парадокс, усиливающий первый, состоит в том, что для описания реальных результатов наблюдений вполне достаточно 20 миллионов отдельных символов. Бесконечность натурального ряда и континуум числовой прямой - это математические абстракции, надстроенные над дискретной и состоящей из конечного числа элементов реальностью. (При изменении числа значащих цифр принципиальный вывод не меняется.) Таким образом, реальные данные лежат не только во множестве меры 0, но и в конечном множестве, причем число элементов в этом множестве вполне обозримо.

Практические следствия методологии моделирования. Из сказанного вытекают некоторые вполне определенные выводы, в том числе касающиеся преподавания и научных исследований.

Например, преподавание теории вероятностей может быть сосредоточено на случае конечного вероятностного пространства. Бесконечные вероятностные пространства могут при этом рассматриваться как удобные математические схемы. Их роль – давать возможность более легко и быстро получать полезные утверждения для конечных вероятностных пространств. Из сказанного вытекает, в частности, что различные параметрические семейства распределений (нормальные, логарифмически нормальные, экспоненциальные, Коши, Вейбулла-Гнеденко, гамма-распределений) приобретают статус не более чем удобных приближений для распределений на конечных вероятностных пространствах. При таком подходе теряет свою парадоксальность тот эмпирически не раз проверенный факт, что распределение погрешностей измерений, как правило, не является гауссовым [4].

В качестве другого примера рассмотрим методы оценивания параметров. По традиции много внимания в учебных курсах уделяется оценкам максимального правдоподобия (ОМП). Однако столь же хорошие асимптотические свойства имеют т.н. одношаговые оценки, гораздо более простые с вычислительной точки зрения [52]. Целесообразно их включить в учебные курсы, а ОМП исключить.

Целесообразно уделять внимание (репрезентативной) теории измерений, в частности, концепции шкал измерения. Необходимо знакомство с определениями и основными свойствами шкал наименований, порядковой, интервалов, отношений, разностей, абсолютной. Установлено, какими алгоритмами статистического анализа данных можно пользоваться в той или иной шкале, в частности, для усреднения результатов наблюдений. Так, для данных, измеренных в порядковой шкале, некорректно вычислять среднее арифметическое. В качестве средних величин для таких данных можно использовать порядковые статистики, в частности, медиану.

Статистические методы исследования часто опираются на использование современных информационных технологий. В частности, распределение статистики можно находить методами асимптотической математической статистики, а можно и путем статистического моделирования (метод Монте-Карло, он же - метод статистических испытаний).

Точки роста. Важно прогнозировать развитие методов моделирования, отличать перспективные направления от тупиковых. Рассмотрим эту проблему на примере прикладной статистики. В работе [53] выделено пять актуальных направлений, в которых развивается современная прикладная статистика, т.е. пять "точек роста": непараметрика, робастность, бутстреп, интервальная статистика, статистика объектов нечисловой природы. Кратко обсудим эти актуальные направления.

Непараметрика, или непараметрическая статистика, позволяет делать статистические выводы, оценивать характеристики распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, уже отмечалось, что широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Математики думают, что это - экспериментальный факт, установленный в прикладных исследованиях. Прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами.

Основная идея работ по робастности, или устойчивости, состоит в том, что выводы, полученные на основе математических методов исследования, должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели. Здесь есть два круга задач. Один - это изучение устойчивости распространенных алгоритмов анализа данных. Второй - поиск робастных алгоритмов для решения тех или иных задач. Отметим, что сам по себе термин "робастность" не имеет точно определенного смысла. Всегда необходимо указывать конкретную вероятностно-статистическую модель. При этом модель "засорения" Тьюки-Хубера-Хампеля обычно не является практически полезной. Дело в том, что она ориентирована на "утяжеление хвостов", а в реальных ситуациях "хвосты" обрезаются априорными ограничениями на результаты наблюдений, связанными, например, с используемыми средствами измерения.

Бутстреп - направление непараметрической статистики, опирающееся на интенсивное использование информационных технологий. Основная идея состоит в "размножении выборок", т.е. в получении набора из многих выборок, напоминающих выборку, полученную в эксперименте. По такому набору можно оценить свойства различных статистических процедур, не прибегая к излишне обременительным параметрическим вероятностно-статистическим моделям. Простейший способ "размножения выборки" состоит в исключении из нее одного результата наблюдения. Исключаем первое наблюдение, получаем выборку, похожую на исходную выборку, но с объемом, уменьшенным на 1. Затем возвращаем исключенный результат первого наблюдения, но исключаем второе наблюдение. Получаем вторую выборку, похожую на исходную. Затем возвращаем результат второго наблюдения, и т.д. Есть и иные способы "размножения выборок". Например, можно по исходной выборке построить ту или иную оценку функции распределения, а затем методом статистических испытаний смоделировать ряд выборок из элементов, функция распределения которых совпадает с этой оценкой.

Интервальная статистика - это анализ интервальных статистических данных. Вполне очевидно, что все средства измерения имеют погрешности. Однако до недавнего времени это очевидное обстоятельство никак не учитывалось в статистических процедурах. В результате возникла абсурдная концепция состоятельности как необходимого свойства статистических оценок параметров и характеристик. Только недавно начала развиваться теория интервальной статистики, избавленная от указанной абсурдной концепции. В ней предполагается, что исходные данные - это не числа, а интервалы. Интервальную статистику можно рассматривать как часть интервальной математики. Выводы в ней часто принципиально отличны от классических.

Нечисловая статистика. Перейдем к статистике объектов нечисловой природы (она же - статистика нечисловых данных, или нечисловая статистика). Сначала напомним, что исходный объект в прикладной статистике - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.

Примерами объектов нечисловой природы являются:

- значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций);

- упорядочения (ранжировки) экспертами образцов продукции (при оценке её технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);

- классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);

- толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;

- результаты парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1;

- множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;

- слова, предложения, тексты;

- вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности организации (т.н. форма № 1-наука) или анкета эксперта, в которой ответы на часть вопросов носят качественный характер, а на часть - количественный;

- ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.

Интервальные данные тоже можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств. А именно, если характеристическая функция нечеткого множества равна 1 на некотором интервале и равна 0 вне этого интервала, то задание нечеткого множества эквивалентно заданию интервала. Напомним, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств. Цикл соответствующих теорем приведен в работах [4,7].

С 1970-х годов в основном на основе запросов теории экспертных оценок (а также технических исследований, экономики, социологии и медицины) развивались конкретные направления статистики объектов нечисловой природы. Были установлены основные связи между конкретными видами таких объектов, разработаны для них базовые вероятностные модели. Следующий этап (1980-е годы) - выделение статистики объектов нечисловой природы в качестве самостоятельной дисциплины, ядром которого являются методы статистического анализа данных произвольной природы. Для работ этого периода характерна сосредоточенность на внутренних проблемах нечисловой статистики. К 1990-м годам статистика объектов нечисловой природы с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Однако она оставалась недостаточно апробированной на практике. И в 1990-е годы наступило время перейти от математико-статистических исследований к применению полученных результатов на практике. Следует отметить, что в статистике объектов нечисловой природы одна и та же математическая схема может с успехом применяться во многих областях, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.

Принципиальная новизна нечисловой статистики. Рассмотрим основные идеи статистики объектов нечисловой природы. В чем ее принципиальная новизна? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.

Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида. Они нацелены на решение классических задач описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.

Первой обсудим проблему определения средних величин. В рамках теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения. В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Теоретическое среднее определяется как решение задачи минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственными элементами рассматриваемого пространства, а являться некоторыми множествами таких элементов, которые могут оказаться и пустыми. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость (в специально определенном смысле) эмпирических средних к теоретическим.

Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в интервальной статистике.

В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в том числе в дискретных пространствах. В частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном пространстве с той, которая имеет быть в классической теории для числовых случайных величин.

Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.

Для проверки гипотез могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке, приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида. Это объясняется тем, что при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.

Представляют практический интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы В частности, со статистикой нечетких множеств и со статистикой случайных множеств (напомним, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств), с непараметрической теорией парных сравнений и бернуллиевских векторов (люсианов), с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы, и с рядом других конкретных постановок.

Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации. С другой стороны, наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, в рамках статистики объектов нечисловой природы. Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа).

Методологический анализ - первый этап моделирования задач принятия решений, да и вообще любого исследования. Он определяет исходные постановки для теоретической проработки, а потому во многом и успех всего исследования.

Подчеркнем, что анализ динамики развития методов моделирования позволяет выделить наиболее перспективные методы. В частности, при вероятностно-статистическом моделировании наиболее перспективными оказались методы нечисловой статистики.

Предыдущая страница | Оглавление | Следующая страница



Защита от автоматического заполнения   Введите символы с картинки*