Эконометрика. Учебник

Производство Общие подходы к управлению производством Что такое производство Типы и виды производства Производственный процесс и цикл Принципы и методы организации производства Цели и функции управления производством Стратегия организации производства Кто и как должен управлять Как выбрать местоположение предприятия Рациональное размещение подразделений предприятия Подбор производственного помещения Подбор производственного оборудования Технологическая подготовка производства Обслуживание производства Организация и обслуживание рабочих мест Техническое обслуживание производства Транспортно-складское обслуживание производства Производственная программа Расчет производственных мощностей Разработка план-графика производства Обеспечение производства ресурсами Контроль выполнения программы Анализ объемов производства продукции Анализ использования основных производственных фондов Планирование материальных ресурсов Производственные стратегии Компоненты продукции: покупать или производить Как выбрать политику поставок Зачем создают запасы Типы и функции запасов Подходы к управлению наличными запасами Анализ использования материальных ресурсов Планирование трудовых ресурсов Определение потребности в трудовых ресурсах Эффективное использование и учет потерь рабочего времени Мотивация производственного персонала Анализ использования трудовых ресурсов Планирование результатов производства Маркетинговая разработка продукции Жизненный цикл производственного товара Как формируется себестоимость и цена продукции Анализ себестоимости продукции Производственные риски Виды рисков Риск невостребованности продукции Как управлять рисками Приложения Бережливое производство История Люди Инструменты бережливого производства Карта потока Система ТРМ 5S Кайдзен Визуализация Стандартизация Метод предотвращения Точно вовремя Быстрая переналадка Практика внедрений Производственное оборудование Система ТОиР Логистика Транспортная логистика 1 Личная эффективность руководителя Делегирование Системы мотивации сотрудников Экономика предприятия Термины Финансовое планирование Бухгалтерия Юридические вопросы Трудовое право ОКПДТР Подбор персонала Охрана труда Несчастный случай Методы поиска новых идей Методы психологической активизации мышления Мозговой штурм Обратная мозговая атака Теневая мозговая атака Корабельный совет Метод фокальных объектов Аналогии. Синектика Метод "Приемы аналогий" Оператор РВС Конференция идей Метод маленьких человечков Метод гирлянд ассоциаций и метафор Метод "Шесть шляп мышления" Метод "Коучинг" Методы систематизированного поиска Списки контрольных вопросов Морфологический анализ Функциональный анализ Функциональный метод проектирования Мэтчетта Метод фокальных объектов Метод гирлянд ассоциаций и метафор Метод многократного последовательного классифицирования Метод синтеза оптимальных форм Метод системного экономического анализа и поэлементной отработки конструктивных решений Метод "Пять почему" Методы направленного поиска Функционально-физический метод поискового конструирования Р. Коллера Теория решения изобретательских задач (ТРИЗ) Методы управления Метод "Шесть сигм" Метод "Семь инструментов управления качеством" Метод "Семь основных инструментов контроля качества" Метод "ABC-анализ" Метод "Бережливое производство" Метод "PDPC" Метод "Контрольный листок" Метод Дельфи Метод "Диаграмма разброса" Метод "Диаграмма сродства" Метод "Диаграмма связей" Метод "Диаграмма Парето" Метод "Гистограммы" Метод "Диаграмма Исикавы" Метод "Контрольные карты" Метод "Матрица приоритетов" Метод "Модель Кано" Метод "Аутсорсинг" Метод "Параллельная инженерная разработка" Метод "Развертывание политики" Метод "Защита от ошибок" Метод анализа видов и последствий отказов Метод "ABC" Метод "Бенчмаркинг" Методы Тагути Метод "Стрелочная диаграмма" Метод "Стратегические карты"	Главная > Книги > Статистика > Эконометрика. Учебник > 4.2. Неустойчивость параметрических методов отбраковки резко выделяющихся результатов наблюдений
	А.И. Орлов Эконометрика Учебник. М.: Издательство "Экзамен", 2002. Глава 4. Статистический анализ числовых величин (непараметрическая статистика) 4.2. Неустойчивость параметрических методов отбраковки резко выделяющихся результатов наблюдений При обработки реальных экономических данных, полученных в процессе наблюдений, измерений, расчетов, иногда один или несколько результатов наблюдений резко выделяются, т.е. далеко отстоят от основной массы данных. Такие резко выделяющиеся результаты наблюдений часто считают содержащими грубые погрешности, соответственно называют промахами или выбросами. В рассматриваемых случаях возникает естественная мысль о том, что подобные наблюдения не относятся к изучаемой совокупности, поскольку содержат грубую погрешность, а получены в результате ошибки, промаха. В метрологии об этом явлении говорят так: "Грубые погрешности и промахи возникают из-за ошибок или неправильных действий оператора (его психо-физиологического состояния, неверного отсчета, ошибок в записях или вычислениях, неправильного включения приборов и т.п.), а также при кратковременных резких изменений проведения измерений (вибрации, поступления холодного воздуха, толчка прибора оператором и т.п.). Если грубые погрешности и промахи обнаруживают в процессе измерений, то результаты, содержащие их, отбрасывают. Однако чаще всего их выявляют только при окончательной обработке результатов измерений с помощью специальных критериев оценки грубых погрешностей" [7, с.46-47]. Есть два подхода к обработке данных, которые могут быть искажены грубыми погрешностями и промахами: 1) отбраковка резко выделяющихся результатов наблюдений, т.е. обнаружение наблюдений, искаженных грубыми погрешностями и промахами, и исключение их из дальнейшей статистической обработки; 2) применение устойчивых (робастных) методов обработки данных, На результаты работы которых мало влияет наличие небольшого числа грубо искаженных наблюдений (см. ниже соответствующую главу). В настоящем пункте обсуждаются методы отбраковки. Наиболее изучена ситуация, когда результаты наблюдений - числа x₁., x₂.,…, x_n., резко выделяется один результат наблюдения, для определенности, максимальный x_max . Простейшая вероятностно-статистическая модель такова [8]. При нулевой гипотезе H₀ результаты наблюдения x₁., x₂.,…, x_nрассматриваются как реализация независимых одинаково распределенных случайных величин числа X₁., X₂.,…, X_n. с функцией распределения F(x). При альтернативной гипотезе H₁ случайные величины X₁., X₂.,…, X_n. также независимы, X₁., X₂.,…, X_n-1 имеют распределение F(x), а X_n - распределение G(x), оно "существенно сдвинуто вправо" относительно F(x), например, G(x)=F(x - A), где A достаточно велико. Если альтернативная гипотеза справедлива, то при вероятность равенства стремится к 1, поэтому естественно применять решающее правило следующего вида: если x_max.> d,* то принять H₁.,* если x_max.< d, то принять H₀, (1) где d - параметр решающего правила, который следует определять из вероятностно-статистических соображений. При справедливости нулевой гипотезы Статистический критерий проверки гипотезы H₀, основанный на решающем правиле вида (1), имеет уровень значимости , если т.е. (2) Из соотношения (2) определяют граничное значение d=d(, n)* в решающем правиле (1).* При больших n и малых (3) поэтому в качестве хорошего приближения к d(, n)* рассматривают (1-/n) - квантиль распределения F(x).* Пусть правило отбраковки задано в соответствии с выражениями (1) и (2) с некоторой функцией распределения F, однако выборка берется из функции распределения G, мало отличающейся от F в смысле расстояния Колмогорова (4) С помощью соотношения (3) получаем, что величина = G(d) для d из уравнения (2) находится между и . Уровень значимости критерия, построенного для F, при применении к наблюдениям из G есть 1- и может принимать любые значения в отрезке [1-; 1-]. В частности, при = 0,01, =0,05, n = 5 возможные значения уровня значимости заполняют отрезок [0; 0,1], т.е. уровень значимости может быть в 2 раза выше номинального, а если n возрастает до 30, то максимальный уровень значимости есть 0,297, т.е. почти в 6 раз выше номинального. При дальнейшем росте n верхняя граница для уровня значимости, как нетрудно видеть, приближается к 1. Рассмотрим и другой вопрос - насколько правило отбраковки с уровнем значимости для G может отличаться от такового для F при справедливости неравенства (4). С использованием соотношения (3) заключаем, что из (5) следует, что где и выписаны выше. Решение уравнения (5) может принимать любое значение в отрезке []. В частности, при =0,05 и n = 5 для стандартного нормального распределения F имеемd(, n) = 2,319, при =0,01 решение уравнения (5) может принимать любое значение в отрезке [2,054; + ], при =0,005 - любое значение в [2,170; 2,576]. При использовании любого другого расстояния между функциями распределения выводы о неустойчивости правил отбраковки также справедливы. Отметим, что проведенные рассмотрения выполнены в рамках "общей схемы устойчивости" (см. ниже главу об устойчивости статистических процедур). Рассмотренные примеры показывают, что при конкретном значении = 0,01 в неравенстве (4) весьма неустойчивы как уровни значимости при фиксированном правиле отбраковки, так и параметр d правила отбраковки при фиксированном уровне значимости. Обсудим, насколько реалистично определение функции распределения с точностью Есть два подхода к определению функции распределения результатов наблюдений: эвристический подбор с последующей проверкой с помощью критериев согласия и вывод из некоторой вероятностной модели. Пусть с помощью критерия согласия Колмогорова проверяется гипотеза о том, что выборка взята из распределения F. Пусть функции распределения F и G удовлетворяют соотношению (4). Пусть на самом деле выборка взята из распределения G, а не F. При каких не удастся различить F и G? Для определенности, при каких гипотеза согласия с F будет приниматься не менее чем в 50% случаев? Критерий согласия Колмогорова основан на статистике (6) где расстояние между функциями распределения определено выше в формуле (4); H - та функция распределения, согласие с которой проверяется, а F_n- эмпирическая функция распределения (т.е. F_n(х) равно доле наблюдений, меньших х, в выборке объема n). Как показал А.Н. Колмогоров в 1933 г., функция распределения случайной величины при росте объема выборки n сходится к некоторой функции распределения К(х), которую ныне называют функцией Колмогорова. При этом К(1,36)= 0,95 и К(0,83)=0,50. Поскольку выборка взята из распределения G, то с вероятностью 0,50 (7) (при больших n). Тогда для рассматриваемой выборки с учетом неравенства (4) и неравенства треугольника для расстояния Колмогорова и симметричности этого расстояния имеем Если т.е. (8) то, согласно формуле (6), гипотеза согласия принимается по крайней мере с той же вероятностью, с которой выполнено неравенств (7), т.е. с вероятностью не менее 0,50. Для = 0,01 это условие выполняется при n < 2809. Таким образом, для определения функции распределения с точностью с помощью критерия согласия Колмогорова необходимо несколько тысяч наблюдений, что для большинства эконометрических задач нереально. При втором из названных выше подходов к определению функции распределения ее конкретный вид выводится из некоторой системы аксиом, в частности, из некоторой модели порождения соответствующей случайной величины. Например, из модели суммирования вытекает нормальное распределение, а из мультипликативной модели перемножения - логарифмически нормальное распределение. Как правило, при выводе используется предельный переход. Так, из Центральной Предельной Теоремы теории вероятностей вытекает, что сумма независимых случайных величин может быть приближена нормальным распределением. Однако более детальный анализ, в частности, с помощью неравенства Берри-Эссеена (см. предыдущий пункт) показывает, что для гарантированного достижения точности необходимо более полутора тысяч слагаемых. Такого количества слагаемых реально, конечно, указать почти никогда нельзя. Это означает, что при решении практических эконометрических задач теория дает возможность лишь сформулировать гипотезу о виде функции распределения, а проверять ее надо с помощью анализа реальной выборки объема, как показано выше, не менее нескольких тысяч. Таким образом, в большинстве реальных ситуаций определить функцию распределения с точностью невозможно. Итак, показано, что правила отбраковки, основанные на использовании конкретной функции распределения, являются крайне неустойчивыми к отклонениям от нее распределения элементов выборки, а гарантировать отсутствие подобных отклонений невозможно. Поэтому отбраковка по классическим правилам математической статистики не является научно обоснованной, особенно при больших объемах выборок. Указанные правила целесообразно применять лишь для выявления "подозрительных" наблюдений, вопрос об отброаковке которых должен решаться из соображений соответствующей предметной области, а не из формально-математических соображений. Выше для простоты изложения рассмотрен лишь случай полностью известного распределения F, для которого изучено правило отбраковки, заданное формулами (1) и (2). Аналогичные выводы о крайней неустойчивости правил отбраковки справедливы, если "истинное распределение" принадлежит какому-либо параметрическому семейству, например, нормальному, Вейбулла-Гнеденко, гамма. Параметрическим методам отбраковки, основанным на моделях тех или иных параметрических семейств распределений, посвящены тысячи книг и статей. Приходится признать, что они имеют в основном внутриматематический интерес. При обработке реальных данных следует применять устойчивые методы (см. соответствующую главу), в частности, непараметрические. Предыдущая страница \| Оглавление \| Следующая страница	Бланки документов Книги Интересные ссылки Файлы Кейсы и задачи Видео Цитаты и афоризмы Софт

«Управление и Оптимизация Производственного Предприятия»

Обратная связь