|
|
|
Эконометрика Учебник. М.: Издательство "Экзамен", 2002. Глава 8. Статистика нечисловых данных 8.5. Непараметрические оценки плотности в пространствах произвольной природы Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства и использовании разнообразных сумм элементов выборок и функций от них, как в классической статистике, а на применении показателей различия, мер близости, метрик, поэтому существенно отличается от классического. В статистике нечисловых данных выделяют общую теорию и статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один связан со средними величинами и асимптотическим поведением решений экстремальных статистических задач, второй - с непараметрическими оценками плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная часть настоящей главы. Понятие плотности в пространстве произвольной природы Х требует специального обсуждения. В пространстве Хдолжна быть выделена некоторая специальная мера для любого случайного события А. Для случайных величин и векторов мера Как могут быть использованы непараметрические оценки плотности распределения вероятностей в пространствах нечисловой природы? Например, для решения задач классификации (диагностики, распознавания образов - см. главу 5). Зная плотности распределения классов, можно решать основные задачи диагностики - как задачи выделения кластеров, так и задачи отнесения вновь поступающего объекта к одному из диагностических классов. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа k-средних или динамических сгущений. В задачах собственно диагностики (дискриминации, распознавания образов с учителем) можно принимать решения о диагностике объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Методы оценивания плотности вероятности в пространствах общего вида предложены и первоначально изучены в работе [31]. В частности, в задачах диагностики объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена - Розенблатта (этот вид оценок и его название впервые были введены в статье [31] ). Они имеют вид: где К: Введенные описанным образом ядерные оценки плотности - частный случай так называемых линейных оценок, также впервые предложенных в работе [31]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае, но, разумеется, с помощью совсем иного математического аппарата. Свойства непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в некотором пространстве произвольного вида. В этом пространстве предполагаются заданными показатель различия d и мера Для вновь введенного показателя различия d1(x,y) введем соответствующие шары Переход от d к d1 напоминает классическое преобразование, использованное Н.В. Смирновым при изучении непараметрических критериев согласия и однородности, а именно, преобразование Функцию d1(x,y), для которой мера шара радиуса t равна t, называем в соответствии с работой [31] «естественным показателем различия» или «естественной метрикой». В случае конечномерного пространства Rk и евклидовой метрикиd имеем d1(x,y) = ck d k (x,y), где ck - объем шара единичного радиуса в Rk . Поскольку можно записать, что
где
то переход от одного показателя различия к другому, т.е. от d к d1 соответствует переходу от одной ядерной функции к другой, т.е. от K к K1. Выгода от такого перехода заключается в том, что утверждения о поведении непараметрических оценок плотности приобретают более простую формулировку. Теорема 5. Пусть d - естественная метрика, плотность f непрерывна в точке x и ограничена на всем пространстве X , причем f(x)>0, ядерная функция K(u) удовлетворяет простым условиям регулярности
Тогда Теорема 5 доказывается методами, развитыми в работе [31]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, в частности, о поведении величины Теорема 6. Пусть ядерная функция K(u) непрерывна и финитна, т.е. существует число E такое, что K(u)=0 приu>E. Пусть круговая плотность является достаточно гладкой, т.е. допускает разложение
при некотором k, причем остаточный член равномерно ограничен на [0,hE]. Пусть
Тогда
Доказательство теоремы 6 проводится с помощью разработанной в статистике объектов нечисловой природы математической техники, образцы которой представлены, в частности, в работе [31]. Если коэффициенты при основных членах в правой части последней формулы не равны 0, то величина n достигает минимума, равного Непараметрические оценки плотности в конечных пространствах. В случае конечных пространств естественных метрик не существует. Однако можно получить аналоги теорем 5 и 6, переходя к пределу не только по объему выборки n, но и по новому параметру дискретности m. Рассмотрим некоторую последовательность Xm , m = 1,2,…- конечных пространств. Пусть в Xm заданы показатели различия dm . Будем использовать нормированные считающие меры Теорема 7. Пусть точки скачков равномерно сближаются, т.е. Пример 1. Пространство где Пример 2. Рассмотрим пространство функций Если Пример 3. Рассматривая пространства ранжировок m объектов, в качестве расстояния d(A,B) между ранжировкамиA и B примем минимальное число инверсий, необходимых для перехода от A к B. Тогда max(ti -ti-1) не стремится к 0 при Пример 4. В прикладных работах наиболее распространенный пример объектов нечисловой природы – вектор разнотипных данных: реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Для пространств разнотипных признаков, т.е. декартовых произведений непрерывных и дискретных пространств, возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние d(x,y) можно, например, рассматривать как сумму трех расстояний. А именно, евклидова расстояния d1 между количественными факторами, расстояния d2 между номинальными признаками (d2(x,y) = 0, если x = y, и d2(x,y) = 1, если Статистика объектов нечисловой природы как часть эконометрики продолжает бурно развиваться. Увеличивается количество ее практически полезных применений при анализе конкретных экономических данных - в маркетинговых исследованиях, контроллинге, при управлении предприятием и др.
|