|
|
|
М.: Издательство «Экзамен», 2004. 2.1.6. Непараметрические оценки плотности Эмпирическая функция распределения – это состоятельная непараметрическая оценка функции распределения числовой случайной величины. А как оценить плотность? Если продифференцировать эмпирическую функцию распределения, то получим бесконечности в точках, соответствующих элементам выборки, и 0 во всех остальных. Ясно, что это не оценка плотности. Как же действовать? Каждому элементу выборки соответствует в эмпирическом распределении вероятность 1/n, где n – объем выборки. Целесообразно эту вероятность не помещать в одну точку, а «размазать» вокруг нее, построив «холмик». Если «холмики» налегают друг на друга, то получаем положительную плотность на всей прямой. Чтобы получить состоятельную оценку плотности, необходимо выбирать ширину «холмика» в зависимости от объема выборки. При этом число «холмиков», покрывающих фиксированную точку, должно безгранично расти. Но одновременно доле таких «холмиков» следует убывать, поскольку покрывающие «холмики» должны быть порождены лишь ближайшими членами вариационного ряда. Реализация описанной идеи привела к различным вариантам непараметрических оценок плотности. Основополагающей является работа Н.В.Смирнова 1951 г. [23]. Вначале рассматривались непараметрические оценки плотности распределения числовых случайных величин и конечномерных случайных векторов. В 1980-х годах удалось сконструировать такие оценки в пространствах произвольной природы [24], а затем и для конкретных видов нечисловых данных [25]. Сначала рассмотрим непараметрические оценки плотности в наиболее общей ситуации. В статистике нечисловых данных выделяют общую теорию и статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один связан со средними величинами и асимптотическим поведением решений экстремальных статистических задач, второй - с непараметрическими оценками плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная часть настоящей главы. Понятие плотности в пространстве произвольной природы Х требует специального обсуждения. В пространстве Хдолжна быть выделена некоторая специальная мера для любого случайного события А. Для случайных величин и векторов мера Как могут быть использованы непараметрические оценки плотности распределения вероятностей в пространствах нечисловой природы? Например, для решения задач классификации (диагностики, распознавания образов - см. главу 3.2). Зная плотности распределения классов, можно решать основные задачи диагностики - как задачи выделения кластеров, так и задачи отнесения вновь поступающего объекта к одному из диагностических классов. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа k-средних или динамических сгущений. В задачах собственно диагностики (дискриминации, распознавания образов с учителем) можно принимать решения о диагностике объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Методы оценивания плотности вероятности в пространствах общего вида предложены и первоначально изучены в работе [24]. В частности, в задачах диагностики объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена - Розенблатта (этот вид оценок и его название впервые были введены в статье [24] ). Они имеют вид: где К: Введенные описанным образом ядерные оценки плотности - частный случай так называемых линейных оценок, также впервые предложенных в работе [24]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае, но, разумеется, с помощью совсем иного математического аппарата. Свойства непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в некотором пространстве произвольного вида. В этом пространстве предполагаются заданными показатель различия d имера Для вновь введенного показателя различия d1(x,y) введем соответствующие шары
где T = F -1x(t). Следовательно, справедлива цепочка равенств F1х(t) = Переход от d к d1 напоминает классическое преобразование, использованное Н.В. Смирновым при изучении непараметрических критериев согласия и однородности, а именно, преобразование Функцию d1(x,y), для которой мера шара радиуса t равна t, называем в соответствии с работой [24] «естественным показателем различия» или «естественной метрикой». В случае конечномерного пространства Rk и евклидовой метрики d имеем d1(x,y) = ck dk(x,y), где ck - объем шара единичного радиуса в Rk . Поскольку можно записать, что
где
то переход от одного показателя различия к другому, т.е. от d к d1, соответствует переходу от одной ядерной функции к другой, т.е. от K к K1. Выгода от такого перехода заключается в том, что утверждения о поведении непараметрических оценок плотности приобретают более простую формулировку. Теорема 5. Пусть d - естественная метрика, плотность f непрерывна в точке x и ограничена на всем пространстве X , причем f(x)>0, ядерная функция K(u) удовлетворяет простым условиям регулярности
Тогда Теорема 5 доказывается методами, развитыми в работе [24]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, в частности, о поведении величины Теорема 6. Пусть ядерная функция K(u) непрерывна и финитна, т.е. существует число E такое, что K(u)=0 приu>E. Пусть круговая плотность является достаточно гладкой, т.е. допускает разложение
при некотором k, причем остаточный член равномерно ограничен на [0,hE]. Пусть Тогда Доказательство теоремы 6 проводится с помощью разработанной в статистике объектов нечисловой природы математической техники, образцы которой представлены, в частности, в работе [24]. Если коэффициенты при основных членах в правой части последней формулы не равны 0, то величина Непараметрические оценки плотности в конечных пространствах [25]. В случае пространств из конечного числа элементов естественных метрик не существует. Однако можно получить аналоги теорем 5 и 6, переходя к пределу не только по объему выборки n, но и по новому параметру дискретности m. Рассмотрим некоторую последовательность Xm , m = 1, 2, … , конечных пространств. Пусть в Xm заданы показатели различия dm . Будем использовать нормированные считающие меры Введем аналог естественного показателя различия Теорема 7. Пусть точки скачков равномерно сближаются, т.е. Пример 1. Пространство где Пример 2. Рассмотрим пространство функций Если Пример 3. Рассматривая пространства ранжировок m объектов, в качестве расстояния d(A,B) между ранжировками A и B примем минимальное число инверсий, необходимых для перехода от A к B. Тогда max(ti -ti-1) не стремится к 0 при Пример 4. В прикладных работах наиболее распространенный пример объектов нечисловой природы – вектор разнотипных данных: реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Для пространств разнотипных признаков, т.е. декартовых произведений непрерывных и дискретных пространств, возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению двух величин - частоты попадания в точку в пространстве качественных признаков и классической оценки типа Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние d(x,y) можно, например, рассматривать как сумму трех расстояний. А именно, евклидова расстояния d1 между количественными факторами, расстояния d2 между номинальными признаками (d2(x,y) = 0, если x = y, и d2(x,y) = 1, если Программная реализация описания числовых данных с помощью непараметрических оценок плотности включена в ряд программных продуктов по прикладной статистике, в частности, в пакет программ анализа данных ППАНД [27].
|