Орлов А.И. Нечисловая статистика
М.: МЗ-Пресс, 2004.    
 

ПРЕДИСЛОВИЕ

В этой книге впервые систематически рассматривается одна из четырех основных областей современной прикладной статистики - нечисловая статистика. Она порождена в 70-х годах ХХ в. потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основой ее математического аппарата является использование расстояний между объектами нечисловой природы и решений оптимизационных задач, а не операций суммирования данных, как в других областях статистики. В учебнике рассмотрены основные виды нечисловых данных и особенности их статистического анализа. Большое внимание уделяется проблемам практического применения рассматриваемых методов и результатов.

Нечисловую статистику называют также статистикой нечисловых данных или статистикой объектов нечисловой природы. Она является сердцевиной современной прикладной статистики. Ее рассматривают также как одну из четырех основных областей статистики. Три других - это статистика чисел (случайных величин), статистика векторов (многомерный статистический анализ), статистика функций (временных рядов и случайных процессов).

Какие данные называют нечисловыми? Описание технического, социально-экономического, медицинского объекта изучения часто удается представить в виде вектора, часть координат которого измерена по количественным шкалам, а часть - по качественным, имеющим конечное число градаций. Это - наиболее распространенный тип нечисловых данных.

В общем случае под нечисловыми данными понимают элементы пространств, не являющихся линейными (векторными), в которых нет операций сложения элементов и их умножения на действительное число. Кроме результатов измерений по качественным признакам, примерами являются последовательности из 0 и 1, бинарные отношения (ранжировки, разбиения, толерантности); множества (в том числе плоские изображения и объемные тела); нечеткие (размытые, расплывчатые, fuzzy) числа и множества, их частный случай - интервалы; результаты парных сравнений и другие объекты, возникающие в прикладных исследованиях. Все эти виды нечисловых данных и вероятностные модели их порождения подробно рассматриваются в монографии. Их обобщением, как и обобщением числовых данных (чисел, векторов, функций), являются элементы пространств произвольной природы.

Исторически нечисловые данные стали рассматриваться раньше, чем статистические данные в виде действительных чисел. Книга Чисел Ветхого Завета содержит обширные сведения о численностях тех или иных совокупностей. Натуральные числа можно отнести к нечисловым данным - хотя их можно складывать, но умножение на действительное число выводит за пределы натурального ряда. Теория вероятностей также начиналась с моделирования нечисловых данных, таких, как результаты бросания игральных костей и вытаскивания шаров из урн. Однако к началу ХХ века основное внимание статистиков переместилось на рассмотрение числовых случайных величин, моделирующих действительнозначные результаты наблюдений.

К 70-м годам ХХ в. развитие прикладных научных исследований в инженерном деле, социологии, экономике, менеджменте, психологии, медицине и других областях привело к необходимости разработки методов статистического анализа нечисловых данных. В СССР вокруг семинара "Экспертные оценки и нечисловая статистика" сложился неформальный научный коллектив из нескольких десятков активных исследователей.

Сначала изучались методы анализа конкретных видов нечисловых данных, устанавливались связи между ними. Затем пришло понимание статистики нечисловых данных как самостоятельной области прикладной статистики со своей внутренней структурой и разнообразными связями между подходами и результатами, относящимися к тем или иным видам нечисловых данных.

Статистика нечисловых данных была выделена нами как самостоятельная область прикладной статистики в 1979 г. За прошедшие с тех пор годы арсенал ее методов пополнился многими полезными новшествами. Но основные идеи выдержали проверку временем, что и оправдывает их изложение в настоящей книге.

О развитии нечисловой статистики. В 70-е годы ХХ в. в СССР возник неформальный научный коллектив исследователей, изучающих методы анализа нечисловых данных различных видов. Центром являлся научный семинар "Экспертные оценки и нечисловая статистика" и одноименная комиссия в составе Научного Совета АН СССР по комплексной проблеме "Кибернетика".

Вначале разбирались подходы предшественников, в частности, аксиоматическое введение расстояний между объектами нечисловой природы и нахождение среднего по Кемени, репрезентативная теория измерений, нечеткие множества Заде, парные сравнения по Дэвиду и др. Затем были проведены многочисленные самостоятельные исследования. В частности, были установлены взаимосвязи между подходами и результатами для различных типов нечисловых данных, разработана общая теория статистического анализа нечисловых данных произвольной природы.

В итоге стало возможным говорить о новой области прикладной статистики - нечисловой статистике. Время ее окончательного формирования - первая половина 80-х годов - было и временем наибольшей организационной активности. Две всесоюзные конференции - в Алма-Ате (1981 г.) и в Таллинне (1984 г.) собрали по 300-500 участников.

Со второй половины 80-х годов ХХ в. статистика нечисловых данных (статистика объектов нечисловой природы) стабильно развивается. Много публикаций содержится в журналах "Заводская лаборатория", "Социология: методология, методы, математические модели", периодических сборниках "Статистические методы оценивания и проверки гипотез". Части нечисловой статистики - статистике интервальных данных была посвящена Международная конференция ИНТЕРВАЛ-92 (Интервальные и стохастические методы в науке и технике, г. Калининград Московской области, сентябрь 1992 г.).

Неформальный коллектив по нечисловой статистике включает в себя десятки российских исследователей, а если учитывать авторов одной - двух работ - то и сотни. За более чем 20 лет выпущено несколько десятков сборников и монографий, много статей в научных журналах. Однако из-за отсутствия формальной инфраструктуры (например, Института нечисловой статистики в составе Российской академии наук) имеются лишь единичные методики и программные продукты, предназначенные для практического использования. В отличие от научных монографий практически отсутствуют учебные пособия, а также книги, содержащие введение и общий обзор нечисловой статистики.

Настоящая книга заполняет существенный пробел в литературе по нечисловой статистике. Она дает введение в предмет, позволяет познакомиться с нечисловой статистикой на современном научном уровне. Изложение доводится до переднего края ведущихся в настоящее время научных исследований. Постоянно в поле зрения находятся вопросы практического применения рассматриваемых подходов, методов, результатов. В частности, используется опыт разработки нашим коллективом автоматизированного рабочего места МАТЭК (математика в экспертизе), предназначенного для организатора экспертного опроса. В монографии отражены также работы по статистике нечисловых данных и ее применениям, за которые автору в 1992 г. была присуждена ученая степень доктора технических наук (без написания диссертации).

Чтобы в сравнительно небольшой книге охватить всю статистику нечисловых данных, приходится идти на жертвы. Мы отказываемся от разбора большинства доказательств, отсылая читателей к публикациям, содержащим эти доказательства. Примерами подобного стиля изложения являются обзоры по статистике нечисловых данных, помещенные в разделе "Математические методы исследования" журнала "Заводская лаборатория" (1990, No.3; 1995, No.3, No.5; 1996, No.3).

Стиль книги. В любой математизированной области есть три уровня исследований - методологический, теоретический и практический. На методологическом уровне излагаются общие подходы и формулируются основные результаты. На теоретическом уровне, грубо говоря, доказывают теоремы. В частности, выявление необходимых и достаточных "условий регулярности" обычно осуществляется в результате цепи работ этого уровня.

Например, на методологическом уровне Центральная Предельная Теорема теории вероятностей формулируется так: "При некоторых условиях регулярности распределение центрированной и нормированной суммы независимых случайных величин при росте числа слагаемых стремится к стандартному нормальному распределению ". Около двухсот лет - от Муавра и Лапласа до Линдеберга и Феллера - "некоторые условия регулярности" уточнялись в работах теоретического уровня.

В настоящей книге изложение идет в основном на методологическом уровне. При спуске на теоретический уровень приводятся формулировки теорем, в основном без доказательств, но со ссылками на публикации, где они содержатся. Обоснованием для выбора такого варианта построения книги, кроме желания ограничить ее объем разумными рамками, послужило следующее представление о предпочтениях будущих читателей: большинство из них не извлечет пользы из того, что в некоторой формулировке можно заменить требование, скажем, дифференцируемости определенной функции на требование ее непрерывности. Сказанное не означает, что автор отрицает целесообразность проведения научных работ, посвященных подобным ослаблениям условий регулярности. Просто им не место в книге, предназначенной для первого знакомства с нечисловой статистикой.

На практическом уровне исследований большое внимание уделяют конкретному объекту приложений - технической, социально-экономической или медицинской системе. Для достаточно информативного описания каждого такого исследования нужна отдельная монография, которая обычно и готовится в качестве отчета по работе. Поэтому мы вынуждены ограничиться краткими замечаниями о практическом применении различных методов нечисловой статистики. Однако суммарно эти замечания составляют существенную часть как авторского замысла, так и объема книги.

Содержание книги. Во введении кратко обсуждаем историю и современное состояние статистических методов и, прежде всего, прикладной статистики, место в ней статистики нечисловых данных. Анализируется сложившаяся структура нечисловой статистики.

Книга делится на главы, а главы - на разделы. В главе 1 изучаются конкретные виды нечисловых статистических данных, соответствующие вероятностные модели. Сопоставляются количественные и категоризованные данные. Разобраны основы теории измерений. Большое внимание уделено нечетким множествам как частному виду нечисловых данных. Продемонстрирована возможность сведения теории нечетких множеств к теории случайных множеств. Обсуждаются статистические данные и необходимые для их анализа расстояния в пространствах произвольной природы. Обсуждается аксиоматический подход к введению расстояний и показателей различия в различных пространствах объектов нечисловой природы.

В главе 2 развиваются статистические методы анализа данных произвольного вида, лежащих в метрическом пространстве или в пространстве с мерой различия. Эмпирические и теоретические средние приходится определять как решения экстремальных статистических задач, и законы больших чисел оказываются частными случаями утверждений об асимптотическом поведении решений таких задач. Другие классы частных случаев подобных утверждений связаны с теорией одношаговых оценок параметров распределения вероятностей (они имеют преимущества по сравнению с оценками максимального правдоподобия) и с оптимизационными постановками основных задач прикладной статистики, в том числе задач восстановления зависимостей, классификации, шкалирования и снижения размерности. Для описания распределений нечисловых данных разработаны непараметрические оценки плотности, используемые также в регрессионном, дискриминантном и кластерном анализах. В предельной теории статистик интегрального типа найден ряд необходимых и достаточных условий.

Глава 3 посвящена статистическому анализу конкретных видов нечисловых данных. В частности, в рамках репрезентативной теории измерений получены характеризации средних величин свойством устойчивости результата сравнения средних относительно той или иной группы допустимых преобразований шкалы. Изучены случайные толерантности. Метод проверки гипотез по совокупности малых выборок применен в теории люсианов - конечных последовательностей испытаний Бернулли с, вообще говоря, различными вероятностями успеха. Люсианы находят применение в теории парных сравнений. Рассмотрены основные вопросы статистики нечетких множеств. Обсуждается использование нечисловой статистики в теории и практике экспертных оценках - области исследований, во многом стимулировавшей развитие основных идей статистического анализа нечисловых данных.

Глава 4 посвящена основным подходам и результатам статистики интервальных данных, быстро развивающейся в последние годы. Для интервальных данных решен ряд задач оценивания и проверки гипотез. Построены интервальные аналоги регрессионного, дискриминантного и кластерного анализов. Интервальные данные применены в инвестиционном менеджменте. Рассмотрена роль статистики интервальных данных в прикладной статистике.

В приложение 1 включены некоторые вопросы, относящиеся к теоретической базе нечисловой статистики. Рассмотрены классические законы больших чисел, центральные предельные теоремы, метод линеаризации и принцип инвариантности. Теоремы о наследовании сходимости сравнительно малоизвестны и могут представить особый интерес. В приложении 2 содержится информация об авторе, позволяющая читателям лучше понять происхождение идей, изложению которых посвящена настоящая книга.

Нумерация формул, определений. теорем, таблиц, рисунков - своя в каждом разделе. Литература приводится по главам в порядке первого упоминания. Списки литературы включают основные публикации по нечисловой статистике, а также те работы, на которые даются ссылки в тексте. Он не претендует на полноту хотя бы потому, что перечень известных автору публикаций по рассматриваемой тематике по объему превысил бы настоящую книгу в несколько раз.

Для кого эта книга? Она предназначена для широкого круга читателей - студентов и преподавателей, прикладников и математиков. Для ее чтения достаточно знаний в объеме вводного курса математической статистики, включающего основные задачи описания данных, оценивания и проверки гипотез.

Эта книга - прежде всего учебник. Он предназначен для студентов различных специальностей, прежде всего технических, управленческих и экономических, слушателей институтов повышения квалификации, структур послевузовского (в том числе второго) образования, в частности, программ МВА («Мастер делового администрирования»), преподавателей вузов. Учебник будет полезен инженерам, менеджерам, экономистам, социологам, биологам, медикам, психологам, историкам, другим специалистам, самостоятельно повышающим свой научный уровень. Короче, всем научным и практическим работникам, связанным с анализом данных.

Учебник может быть использован при изучении дисциплин, полностью или частично посвященным методам анализа нечисловых результатов наблюдений (измерений, испытаний, опытов). Типовые названия таких вузов - «Прикладная статистика», «Эконометрика», «Анализ данных», «Статистический анализ», «Теория принятия решений», «Управленческие решения», «Экономико-математическое моделирование», «Прогнозирование», «Хемометрия», «Математические методы в социологии», и т.п.

Специалистам по теории вероятностей и математической статистике эта книга также может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную математическую статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований.

Книга будет полезна широкому кругу специалистов, заинтересованных в применении современных статистических методов анализа нечисловых данных в любой предметной области. Она необходима разработчикам таких методов и соответствующего программного обеспечения, т.е. специалистам по прикладной статистике. Специалистам по теории вероятностей и математической статистике эта книга также может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований. Книга представляет интерес для исследователей - специалистов по вопросам управления. вт ом числе по принятию решений, методам оптимизации и математическому моделированию. Наконец, без нее не сможет обойтись ни один преподаватель прикладной или математической статистики, статистических методов для любой конкретной области применений, если он хочет, чтобы его лекционный курс был современным.

Благодарности. Автор благодарен за полезные обсуждения многочисленным коллегам по научным семинарам, по работе в Институте высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана, в Российской ассоциации статистических методов и Российской академии статистических методов.

С текущей научной информацией по статистическим методам можно познакомиться на сайтах автораwww.antorlov.nm.ru, www.antorlov.chat.ru, www.newtech.ru/~orlov, www.antorlov.euro.ru. Достаточно большой объем информации содержит еженедельник "Эконометрика", выпускаемый с июля 2000 г. (о ней рассказано на указанных выше сайтах). Автор искренне благодарен разработчику сайтов и редактору электронного еженедельника А.А. Орлову за многолетний энтузиазм.

Автор будет благодарен читателям, если они сообщат свои вопросы и замечания по адресу издательства или непосредственно автору по электронной почте Е-mail: orlov@professor.ru .

Предыдущая страница | Оглавление | Следующая страница