Прикладная статистика

Производство Общие подходы к управлению производством Что такое производство Типы и виды производства Производственный процесс и цикл Принципы и методы организации производства Цели и функции управления производством Стратегия организации производства Кто и как должен управлять Как выбрать местоположение предприятия Рациональное размещение подразделений предприятия Подбор производственного помещения Подбор производственного оборудования Технологическая подготовка производства Обслуживание производства Организация и обслуживание рабочих мест Техническое обслуживание производства Транспортно-складское обслуживание производства Производственная программа Расчет производственных мощностей Разработка план-графика производства Обеспечение производства ресурсами Контроль выполнения программы Анализ объемов производства продукции Анализ использования основных производственных фондов Планирование материальных ресурсов Производственные стратегии Компоненты продукции: покупать или производить Как выбрать политику поставок Зачем создают запасы Типы и функции запасов Подходы к управлению наличными запасами Анализ использования материальных ресурсов Планирование трудовых ресурсов Определение потребности в трудовых ресурсах Эффективное использование и учет потерь рабочего времени Мотивация производственного персонала Анализ использования трудовых ресурсов Планирование результатов производства Маркетинговая разработка продукции Жизненный цикл производственного товара Как формируется себестоимость и цена продукции Анализ себестоимости продукции Производственные риски Виды рисков Риск невостребованности продукции Как управлять рисками Приложения Бережливое производство История Люди Инструменты бережливого производства Карта потока Система ТРМ 5S Кайдзен Визуализация Стандартизация Метод предотвращения Точно вовремя Быстрая переналадка Практика внедрений Производственное оборудование Система ТОиР Логистика Транспортная логистика 1 Личная эффективность руководителя Делегирование Системы мотивации сотрудников Экономика предприятия Термины Финансовое планирование Бухгалтерия Юридические вопросы Трудовое право ОКПДТР Подбор персонала Охрана труда Несчастный случай Методы поиска новых идей Методы психологической активизации мышления Мозговой штурм Обратная мозговая атака Теневая мозговая атака Корабельный совет Метод фокальных объектов Аналогии. Синектика Метод "Приемы аналогий" Оператор РВС Конференция идей Метод маленьких человечков Метод гирлянд ассоциаций и метафор Метод "Шесть шляп мышления" Метод "Коучинг" Методы систематизированного поиска Списки контрольных вопросов Морфологический анализ Функциональный анализ Функциональный метод проектирования Мэтчетта Метод фокальных объектов Метод гирлянд ассоциаций и метафор Метод многократного последовательного классифицирования Метод синтеза оптимальных форм Метод системного экономического анализа и поэлементной отработки конструктивных решений Метод "Пять почему" Методы направленного поиска Функционально-физический метод поискового конструирования Р. Коллера Теория решения изобретательских задач (ТРИЗ) Методы управления Метод "Шесть сигм" Метод "Семь инструментов управления качеством" Метод "Семь основных инструментов контроля качества" Метод "ABC-анализ" Метод "Бережливое производство" Метод "PDPC" Метод "Контрольный листок" Метод Дельфи Метод "Диаграмма разброса" Метод "Диаграмма сродства" Метод "Диаграмма связей" Метод "Диаграмма Парето" Метод "Гистограммы" Метод "Диаграмма Исикавы" Метод "Контрольные карты" Метод "Матрица приоритетов" Метод "Модель Кано" Метод "Аутсорсинг" Метод "Параллельная инженерная разработка" Метод "Развертывание политики" Метод "Защита от ошибок" Метод анализа видов и последствий отказов Метод "ABC" Метод "Бенчмаркинг" Методы Тагути Метод "Стрелочная диаграмма" Метод "Стратегические карты"	Главная > Книги > Статистика > Прикладная статистика > 2.2.4. Робастность статистических процедур
	Орлов А.И. Прикладная статистика М.: Издательство «Экзамен», 2004. Часть 2. Основные проблемы прикладной статистики 2.2.4. Робастность статистических процедур Термин "робастность" (robustness - англ.) образован от robust - крепкий, грубый (англ.). Сравните с названием одного из сортов кофе - robusta. Имеется в виду, что робастные статистические процедуры должны "выдерживать" ошибки, которые теми или иными способами могут попадать в исходные данные или искажать предпосылки используемых вероятностно-статистических моделей. Термин "робастный" стал популярным в нашей стране в 1970-е годы. Сначала он использовался фактически как сужение термина "устойчивый" на алгоритмы статистического анализа данных классического типа (не включая теорию измерений, статистику нечисловых и интервальных данных). Затем реальная сфера его применения сузилась. Пусть исходные данные - это выборка, т.е. совокупность независимых одинаково распределенных случайных величин с одной и той же функцией распределения F(x). Наиболее простая модель изучения устойчивости - это модель засорения (1) Эта модель имеются также моделью Тьюки - Хубера. (Джон Тьюки - американский исследователь, П. Хубер, или Хьюбер - швейцарский ученый.) Модель (1) показывает, что с близкой к 1 вероятностью, а именно, с вероятностью наблюдения берутся из совокупности с функцией распределения которая предполагается обладающей "хорошими" свойствами. Например, она имеет известный статистику вид (хотя бы с точностью до параметров), у нее существуют все моменты, и т.д. Но с малой вероятностью появляются наблюдения из совокупности с "плохим" распределением, например, взятые из распределения Коши, не имеющего математического ожидания, резко выделяющиеся аномальные наблюдения, выбросы. Актуальность модели (1) не вызывает сомнений. Наличие засорений (выбросов) может сильно исказить результаты эконометрического анализа данных. Ясно, что если функция распределения элементов выборки имеет вид (1), где первое слагаемое соответствует случайной величине с конечным математическим ожиданием, а второе - такой, для которого математического ожидания не существует (например, если H(x) - функция распределения Коши), то для итоговой функций распределения (1) также не существует математического ожидания. Исследователя обычно интересуют характеристики первого слагаемого, но найти их, т.е. освободиться от влияния засорения, не так-то просто. Например, среднее арифметическое результатов наблюдений не будет иметь никакого предела (это - строгое математическое утверждение, вытекающее из того, что математическое ожидание не существует [24]). Существуют различные способы борьбы с засорением. Эмпирическое правило "борьбы с засорениями" при подведении итогов работы команды судей найдено в фигурном катании: наибольшая и наименьшая оценки отбрасываются, а по остальным рассчитывается средняя арифметическая. Ясно, что единичное "засорение" окажется среди отброшенных оценок. Оценивать характеристики и параметры, проверять статистические гипотезы, вообще осуществлять статистический анализ данных все чаще рекомендуют на основе эмпирических квантилей (другими словами, порядковых статистик, членов вариационного ряда), отделенных от концов вариационного ряда. Речь идет об использовании статистик вида , где a, b, c, d, e – заданные числа, x(0,1n), x(0,3n), x(0,5n), x(0,7n), x(0,9n) – члены вариационного ряда с номерами, наиболее близкими к числам, указанным в скобках. Так ценой небольшой потери в эффективности избавляемся от засоренности типа описанной в модели (1). Вариантом этого подхода является переход к сгруппированным данным. Отрезок прямой, содержащий основную часть наблюдений, разбивается на интервалы, и вместо количественных значений статистик подсчитывает лишь, сколько наблюдений попало в те или иные интервалы. Особое значение приобретают крайние интервалы - к ним относят все наблюдения, которые больше некоторого верхнего порога и меньше некоторого нижнего порога. Любым методам анализа сгруппированных данных резко выделяющиеся наблюдения не страшны. Можно поставить под сомнение и саму опасность засорения. Дело в том, что практически все реальные величины ограничены. Все они лежат на каком-то интервале - от и до. Это совершенно ясно, если речь идет о физическом измерении - все результаты измерений укладывается в шкалу прибора. По-видимому, и для иных статистических измерений наибольшие сложности создают не сверхбольшие помехи, а те засорения, что находятся "на грани" между "интуитивно возможным" и "интуитивно невозможным". Что же это означает для практики статистического анализа данных? Если элементы выборки по абсолютной величине не превосходят числа А, то все засорение может сдвинуть среднее арифметическое на величину Если засорение невелико, то и сдвиг мал. Построена достаточно обширная и развитая теория, посвященная разработке и изучению методов анализа данных в модели (1). С ней можно познакомиться по монографиям [25-27]. К сожалению, в теории обычно предполагается известной степень засорения , а на практике эта величина неизвестна. Кроме того, теория обычно направлена на защиту от воздействий, якобы угрожающих из бесконечности (например, отсутствием математического ожидания), а на самом деле реальные данные финитны (сосредоточены на конечных отрезках). Все это объясняет, почему теория робастности, исходящая из модели (1), популярна среди теоретиков, но мало интересна тем, кто анализирует реальные технические, экономические, медицинские и иные статистические данные. Рассмотрим несколько более сложную модель. Пусть наблюдаются реализации независимых случайных величин с функциями распределения соответственно. Эта модель соответствует гипотезе о том, что в процессе наблюдения (измерения) условия несколько менялись. Естественной представляется модель малых отклонений функций распределений наблюдаемых случайных величин от некоторой "базовой" функции распределения . Множество возможных значений функций распределений наблюдаемых случайных величин (т.е. совокупность допустимых отклонений согласно общей схеме устойчивости, рассмотренной в главе 1.4) описывается следующим образом: Следующий тип моделей - это введение малой (т.е. слабой) зависимости между рассматриваемыми случайными величинами (см., например, монографию [28]). Ограничения на взаимную зависимость можно задать разными способами. Пусть - совместная функция распределения n-мерного случайного вектора, F₁(x₁), F₂(x₂), … , F_n(x_n) – функции распределения его координат. Если все координаты независимы, то =F₁(x₁)F₂(x₂)…F_n(x_n). Пусть коэффициент корреляции между i-ой и j-ой случайными величинами – координатами вектора. Множество возможных совместных функций распределения (т.е. совокупность допустимых отклонений согласно общей схеме устойчивости, рассмотренной в главе 1.4) описывается следующим образом: Таким образом, фиксируются функции распределения координат, а коэффициенты корреляции предполагаются малыми (по абсолютной величине). Есть еще целый ряд постановок задач робастности. Если накладывать погрешности непосредственно на результаты наблюдений (измерений) и предполагать лишь, что эти погрешности не превосходят (по абсолютной величине) заданных величин, то получаем постановки задач статистики интервальных данных (см. главу 3.5). При этом каждый результат наблюдения превращается в интервал - исходное значение плюс-минус максимально возможная погрешность. Разработано много вариантов робастных методов анализа статистических данных (см. монографии [5, 25-28]). Иногда говорят, что робастные методы позволяют использовать информацию о том, что реальные наблюдения лежат "около" тех или иных параметрических семейств, например, нормальных. В этом, дескать, их преимущество по сравнению с непараметрическими методами, которые предназначены для анализа данных, распределенных согласно произвольной непрерывной функции распределения. Однако количественных подтверждений этих уверений любителей робастных методов обычно не удается найти. В основном потому, что термин «около» трудно формализовать. На примере различных подходов к изучению робастности статистических процедур оценивания и проверки гипотез видны сложности, связанные с изучением устойчивости. Дело в том, что для каждой конкретной статистической задачи можно самыми разными способами задать совокупность допустимых отклонений. Так, выше кратко рассмотрены четыре такие совокупности, соответствующие модели засорения Тьюки - Хубера, модели малых отклонений функций распределения, модели слабых связей и модели интервальных данных. В каждой из этих моделей общая схема устойчивости (глава 1.4) предлагает для решения целый спектр задач устойчивости. Кроме изучения свойств робастности известных статистических процедур можно в каждой из постановок находить оптимальные процедуры. Однако практическая ценность этих оптимальных процедур, как правило, невелика, поскольку в других постановках оптимальными будут уже другие процедуры. Предыдущая страница \| Оглавление \| Следующая страница	Бланки документов Книги Интересные ссылки Файлы Кейсы и задачи Видео Цитаты и афоризмы Софт

«Управление и Оптимизация Производственного Предприятия»

Обратная связь