|
|
|
Теория принятия решений Учебное пособие. - М.: Издательство "Март", 2004. 2. ОПИСАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ В ТЕОРИИ ПРИНЯТИЯ РЕШЕНИЙ 2.3.3. Интервальные данные в задачах оценивания характеристик распределенияПоясним теоретические концепции статистики интервальных данных на простых примерах. Пример 1. Оценивание математического ожидания. Пусть необходимо оценить математическое ожидание случайной величины с помощью обычной оценки - среднего арифметического результатов наблюдений, т.е. Тогда при справедливости ограничений (1) на абсолютные погрешности имеем Поскольку то в обозначениях предыдущего пункта Следовательно, рациональный объем выборки равен Для практического использования полученной формулы надо оценить дисперсию результатов наблюдений. Можно доказать, что, поскольку Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных специалисту по анализу данных. Второй - уровень известных этому специалисту величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют использовать s2(y) как оценку D(x1). Итак, выборочной оценкой рационального объема выборки является Уже на этом первом рассматриваемом примере видим, что рациональный объем выборки находится не где-то вдали, а непосредственно рядом с теми объемами, с которыми имеет дело любой практически работающий статистик. Например, если статистик знает, что По сравнению с классической математической статистикой доверительный интервал для математического ожидания (для заданной доверительной вероятности
где По поводу формулы (4) была довольно жаркая дискуссия среди специалистов. Отмечалось, что она получена на основе Центральной Предельной Теоремы теории вероятностей и может быть использована при любом распределении результатов наблюдений (с конечной дисперсией). Если же имеется дополнительная информация, то, по мнению отдельных специалистов, формула (4) может быть уточнена. Например, если известно, что распределение xi является нормальным, в качестве u( Применительно к оцениванию математического ожидания (но не к оцениванию других характеристик или параметров распределения) факт существования границы возможной точности, определяемой точностью исходных данных, не0днократно отмечался в литературе ([26, с.230-234], [31, с.121] и др.). Пример 2. Оценивание дисперсии. Для статистики f(y) = s2(y), где s2(y) - выборочная дисперсия (несмещенная оценка теоретической дисперсии), при справедливости ограничений (1) на абсолютные погрешности имеем Можно показать, что нотна Nf(y) сходится к по вероятности с точностью до Известно, что случайная величина является асимптотически нормальной с математическим ожиданием 0 и дисперсией Из сказанного вытекает, что в статистике интервальных данных асимптотический доверительный интервал для дисперсии где где Рациональный объем выборки при оценивании дисперсии равен а выборочную оценку рационального объема выборки Что можно сказать о численной величине рационального объема выборки? Как и в случае оценивания математического ожидания, она отнюдь не выходит за пределы обычно используемых объемов выборок. Так, если распределение результатов наблюдений где Пример 3. Аддитивные статистики. Пусть Тогда по вероятности при
при ограничениях (1) на абсолютные ошибки и в замкнутом интервале
при ограничениях на относительные погрешности результатов наблюдений. Обратим внимание, что длины этих интервалов независимы от объема выборки, в частности, не стремятся к 0 при его росте. К каким последствиям это приводит в задачах статистического оценивания? Поскольку для статистик аддитивного типа
по вероятности при Как известно, в рамках классической математической статистики в предположении существования ненулевой дисперсии Dg(x1) в силу асимптотической нормальности аддитивной статистики f(x) асимптотический доверительный интервал, соответствующий доверительной вероятности где s(g(x)) – выборочное среднее квадратическое отклонение, построенное по g(x1), g(x2),…, g(xn), а В рассматриваемой модели порождения интервальных данных вместо f(x) необходимо использовать f(y), а вместо g(xi)– соответственно g(yi), i-1,2,…,n. При этом доверительный интервал необходимо расширить с учетом формул (5) и (6). В соответствии с проведенными рассуждениями для аддитивных статистик асимптотическая нотна имеет вид при ограничениях (1) на абсолютную погрешность и при ограничениях на относительную погрешность. В первом случае нотна является обобщением понятия предельной абсолютной систематической ошибки, во втором – предельной относительной систематической ошибки. Отметим, что, как и в примерах 1 и 2, асимптотическая нотна не зависит от точки, в которой вычисляется. Таким образом, она является константой для конкретного метода статистического анализа данных. Поскольку n велико, а В статистике интервальных данных выборочный доверительный интервал для Mg(x1) имеет вид В асимптотике его длина такова:
где Для аддитивных статистик при больших n максимум (по возможным погрешностям) среднего квадрата отклонения оценки имеет вид
с точностью до членов более высокого порядка. Исходя из принципа уравнивания погрешностей в общей схеме устойчивости [3], нецелесообразно второе слагаемое в (9) делать меньше первого за счет увеличения объема выборкиn. Рациональный объем выборки, т.е. тот объем, при котором равны погрешности оценивания (или проверки гипотез), вызванные погрешностями исходных данных, и статистические погрешности, рассчитанные по обычным правилам математической статистики (при
В качестве примера рассмотрим экспоненциально распределенные результаты наблюдений В частности, если относительная погрешность измерений Пример 4. Оценивание медианы распределения с помощью выборочной медианы. Хотя нельзя выделить главный линейный член из-за недифференцируемости функции f(x), выражающей выборочную медиану через элементы выборки, непосредственно из определения нотны следует, что при ограничениях на абсолютные погрешности
а при ограничениях на относительные погрешности с точностью до бесконечно малых более высокого порядка, где
где где при ограничениях на абсолютные и относительные погрешности результатов измерений соответственно. Для практического использования этих формул следует оценить плотность распределения результатов измерений в одной точке - теоретической медиане. Это можно сделать с помощью тех или иных непараметрических оценок плотности [27]. Если результаты наблюдений имеют стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1, то В этом случае рациональный объем выборки в Пример 5. Оценивание коэффициента вариации. Рассмотрим выборочный коэффициент вариации Как нетрудно подсчитать, В случае ограничений на относительную погрешность На основе этого предельного соотношения и формулы для асимптотической дисперсии выборочного коэффициента вариации, приведенной в [27], могут быть найдены по описанной выше схеме доверительные границы для теоретического коэффициента вариации и рациональный объем выборки. Замечание. Отметим, что формулы для рационального объема выборки получены на основе асимптотической теории, а применяются для получения конечных объемов – 36 и 100 в примерах 1-3. Как всегда при использовании асимптотических результатов математической статистики, необходимы дополнительные исследования для изучения точности асимптотических формул при конечных объемах выборок.
|