Нечисловая статистика

Производство Общие подходы к управлению производством Что такое производство Типы и виды производства Производственный процесс и цикл Принципы и методы организации производства Цели и функции управления производством Стратегия организации производства Кто и как должен управлять Как выбрать местоположение предприятия Рациональное размещение подразделений предприятия Подбор производственного помещения Подбор производственного оборудования Технологическая подготовка производства Обслуживание производства Организация и обслуживание рабочих мест Техническое обслуживание производства Транспортно-складское обслуживание производства Производственная программа Расчет производственных мощностей Разработка план-графика производства Обеспечение производства ресурсами Контроль выполнения программы Анализ объемов производства продукции Анализ использования основных производственных фондов Планирование материальных ресурсов Производственные стратегии Компоненты продукции: покупать или производить Как выбрать политику поставок Зачем создают запасы Типы и функции запасов Подходы к управлению наличными запасами Анализ использования материальных ресурсов Планирование трудовых ресурсов Определение потребности в трудовых ресурсах Эффективное использование и учет потерь рабочего времени Мотивация производственного персонала Анализ использования трудовых ресурсов Планирование результатов производства Маркетинговая разработка продукции Жизненный цикл производственного товара Как формируется себестоимость и цена продукции Анализ себестоимости продукции Производственные риски Виды рисков Риск невостребованности продукции Как управлять рисками Приложения Бережливое производство История Люди Инструменты бережливого производства Карта потока Система ТРМ 5S Кайдзен Визуализация Стандартизация Метод предотвращения Точно вовремя Быстрая переналадка Практика внедрений Производственное оборудование Система ТОиР Логистика Транспортная логистика 1 Личная эффективность руководителя Делегирование Системы мотивации сотрудников Экономика предприятия Термины Финансовое планирование Бухгалтерия Юридические вопросы Трудовое право ОКПДТР Подбор персонала Охрана труда Несчастный случай Методы поиска новых идей Методы психологической активизации мышления Мозговой штурм Обратная мозговая атака Теневая мозговая атака Корабельный совет Метод фокальных объектов Аналогии. Синектика Метод "Приемы аналогий" Оператор РВС Конференция идей Метод маленьких человечков Метод гирлянд ассоциаций и метафор Метод "Шесть шляп мышления" Метод "Коучинг" Методы систематизированного поиска Списки контрольных вопросов Морфологический анализ Функциональный анализ Функциональный метод проектирования Мэтчетта Метод фокальных объектов Метод гирлянд ассоциаций и метафор Метод многократного последовательного классифицирования Метод синтеза оптимальных форм Метод системного экономического анализа и поэлементной отработки конструктивных решений Метод "Пять почему" Методы направленного поиска Функционально-физический метод поискового конструирования Р. Коллера Теория решения изобретательских задач (ТРИЗ) Методы управления Метод "Шесть сигм" Метод "Семь инструментов управления качеством" Метод "Семь основных инструментов контроля качества" Метод "ABC-анализ" Метод "Бережливое производство" Метод "PDPC" Метод "Контрольный листок" Метод Дельфи Метод "Диаграмма разброса" Метод "Диаграмма сродства" Метод "Диаграмма связей" Метод "Диаграмма Парето" Метод "Гистограммы" Метод "Диаграмма Исикавы" Метод "Контрольные карты" Метод "Матрица приоритетов" Метод "Модель Кано" Метод "Аутсорсинг" Метод "Параллельная инженерная разработка" Метод "Развертывание политики" Метод "Защита от ошибок" Метод анализа видов и последствий отказов Метод "ABC" Метод "Бенчмаркинг" Методы Тагути Метод "Стрелочная диаграмма" Метод "Стратегические карты"	Главная > Книги > Статистика > Нечисловая статистика > 2.7. Методы восстановления зависимостей
	Орлов А.И. Нечисловая статистика М.: МЗ-Пресс, 2004. Глава 2. Статистические методы в пространствах произвольной природы 2.7. Методы восстановления зависимостей Сначала рассмотрим параметрические постановки задач регрессионного анализа (восстановления зависимостей) в пространствах произвольной природы, затем - непараметрические, после чего перейдем к оцениванию нечисловых параметров в классической ситуации, когда отклик и факторы принимают числовые значения. Задача аппроксимации зависимости (параметрической регрессии). Пусть X и Y – некоторые пространства. Пусть имеются статистические данные - n пар (x_k, y_k), где x_k X, y_k Y, k = 1, 2, …, n. Задано параметрическое пространство Θ произвольной природы и семейство функций g(x,θ): XЧΘ → Y. Требуется подобрать параметр θ Θ так. чтобы g(x_k ,θ) наилучшим образом приближали y_k, k = 1, 2, …, n. Пусть f_k – последовательность показателей различия в У. При сделанных предположениях параметр θ естественно оценивать путем решения экстремальной задачи: . (1) Часто, но не всегда, все f_k совпадают. В классической постановке, когда Х = R^k, У = R¹, функции f_k различны при неравноточных наблюдениях, например, когда число опытов меняется от одной точки х проведения опытов к другой. Если f_k(y₁,y₂) = f(y₁,y₂) = (y₁- y₂)², то получаем общую постановку метода наименьших квадратов (см. подробности, например, в [6, гл.5]): . В рамках детерминированного анализа данных остается единственный теоретический вопрос – о существовании θ_n. Если все участвующие в формулировке задачи (1) функции непрерывны, а минимум берется по бикомпакту, то θ_nсуществует. Есть и иные условия существования θ_n [4, 36, 37]. При появлении нового наблюдения х в соответствии с методологией восстановления зависимости рекомендуется выбирать оценку соответствующего у по правилу у* = g(x, θ_n). Обосновать такую рекомендацию в рамках детерминированного анализа данных невозможно. Это можно сделать только в вероятностной теории, равно как и изучить асимптотическое поведение θ_n, доказать состоятельность этой оценки. Как и в классическом случае, вероятностную теорию целесообразно строить для трех различных постановок. 1. Переменная х – детерминированная (например, время), переменная у – случайная, ее распределение зависит отх. 2. Совокупность (x_k, y_k), k = 1, 2, …, n, – выборка из распределения случайного элемента со значениями в ХЧУ. 3. Имеется детерминированный набор пар (x_k₀, y_k₀), k = 1, 2, …, n, результат наблюдения (x_k, y_k) является случайным элементом, распределение которого зависит от (x_k₀, y_k₀). Это – постановка т.н. конфлюэнтного анализа. Во всех трех случаях , однако случайность входит в правую часть по-разному в зависимости от постановки, от которой зависит и определение предельной функции f(θ). Проще всего выглядит f(θ) в случае второй постановки при f_k≡ f: f(θ) = Mf(g(x₁,θ),y). В случае первой постановки в предположении существования указанного предела. Ситуация усложняется для третьей постановки: . Во всех трех случаях на основе общих результатов о поведении решений экстремальных статистических задач можно изучить [4, 36, 37] асимптотику оценок θ_n. При выполнении соответствующих внутриматематических условий регулярности оценки оказываются состоятельными, т.е. удается восстановить зависимость. Аппроксимация и регрессия. Соотношение (1) дает решение задачи аппроксимации. Поясним, как эта задача соотносится с нахождением регрессии. Согласно [38] для случайной величины (ξ, η) со значениями в ХЧУ регрессией η на ξ относительно меры близости f естественно назвать решение задачи Mf(g(ξ), η) → , (2) где f: YЧY → R¹, g: X → Y, минимум берется по множеству всех измеримых функций. Можно исходить и из формально другого определения. Для каждого хХ рассмотрим случайную величину η(х), распределение которой является условным распределением η при условии ξ = х. В соответствии с определением математического ожидания в пространстве общей природы назовем условным математическим ожиданием решение экстремальной задачи . Оказывается, при обычных предположениях измеримости решение задачи (2) совпадает с . (Внутриматематические уточнения типа «равенство имеет место почти всюду» здесь опущены.) Если заранее известно, что условное математическое ожидание принадлежит некоторому параметрическому семейству g(x,θ), то задача нахождения регрессии сводится к оцениванию параметра θ в соответствии с рассмотренной выше второй постановкой вероятностной теории параметрической регрессии. Если же нет оснований считать, что регрессия принадлежит некоторому параметрическому семейству, то можно использовать непараметрические оценки регрессии. Они строятся с помощью непараметрических оценок плотности (см. раздел 2.5). Непараметрические методы восстановления зависимости. Пусть ν₁ – мера в Х, ν₂ – мера в У, а их прямое произведение ν = ν₁Чν₂ – мера в ХЧУ. Пусть g(x,y) – плотность случайного элемента (ξ,η) по мере ν. Тогда условная плотность g(y\|x) распределения η при условии ξ=х имеет вид (3) (в предположении, что интеграл в знаменателе отличен от 0). Следовательно, , а потому . Заменяя g(x,y) в (3) непараметрической оценкой плотности g_n(x,y), получаем оценку условной плотности . (4) Если g_n(x,y) – состоятельная оценка g(x,y), то числитель (4) сходится к числителю (3). Сходимость знаменателя (4) к знаменателю (3) обосновывается с помощью предельной теории статистик интегрального типа (см. раздел 2.6). В итоге получаем утверждение о состоятельности непараметрической оценки (4) условной плотности (3). Непараметрическая оценка регрессии ищется как . Состоятельность этой оценки следует из приведенных выше общих результатов об асимптотическом поведении решений экстремальных статистических задач. Оценивание объектов нечисловой природы в классических постановках регрессионного анализа.Нечисловая статистика тесно связана с классическими областями прикладной статистики. Ряд трудностей в классических постановках удается понять и разрешить лишь с помощью общих результатов прикладной статистики. В частности, это касается оценивания параметров, когда параметр имеет нечисловую природу. Рассмотрим типовую прикладную постановку задачи восстановления регрессионной зависимости, линейной по параметрам (см. также [6, глава 5.1]). Исходные данные имеют вид . Цель состоит в том, чтобы с достаточной точностью описать y как многочлен (полином) от x, т.е. модель имеет вид , (5) где m - неизвестная степень полинома; - неизвестные коэффициенты многочлена; , - погрешности, которые для простоты примем независимыми и имеющими одно и то же нормальное распределение с нулевым математическим ожиданием и дисперсией σ². Замечание. Здесь наглядно проявляется одна из причин живучести вероятностно-статистических моделей на основе нормального распределения. Такие модели, как правило, неадекватны реальной ситуации [6, глава 4.1]. Однако с математической точки зрения они позволяют глубже проникнуть в суть изучаемого явления. Поэтому такие модели полезны для первоначального анализа ситуации. В ходе дальнейших исследований необходимо снять нереалистическое предположение нормальности и перейти к непараметрическим моделям. В прикладной статистике часто используют следующую технологию анализа данных. Сначала пытаются применить модель (5) для линейной функции (m = 1), при неудаче (неадекватности модели) переходят к многочлену второго порядка (m = 2), если снова неудача, то берут модель (2) с m= 3 и т.д. Адекватность модели обычно проверяют по F-критерию Фишера. Обсудим свойства этой процедуры. Если степень полинома задана (m = m₀), то его коэффициенты оценивают методом наименьших квадратов, свойства этих оценок хорошо известны. Однако в рассматриваемой постановке mтоже является неизвестным параметром и подлежит оценке. Таким образом, требуется оценить объект (m, a₀, a₁, a₂, …,a_m), множество значений которого можно описать как . Это - объект нечисловой природы, обычные методы оценивания для него неприменимы. Разработанные к настоящему времени методы оценивания степени полинома носят в основном эвристический характер (см., например, гл. 12 монографии [39]). Рассмотрим некоторые из них. Оценивание степени полинома. Полезно рассмотреть основной показатель качества регрессионной модели (5). Одни и те же данные можно обрабатывать различными способами. На первый взгляд, показателем отклонений данных от модели может служить остаточная сумма квадратов SS. Чем этот показатель меньше, тем приближение лучше, значит, и модель лучше описывает реальные данные. Однако это рассуждение годится только для моделей с одинаковым числом параметров. Ведь если добавляется новый параметр, по которому можно минимизировать, то и минимум, как правило, оказывается меньше. В качестве основного показателя качества регрессионной модели используют следующую оценку остаточной дисперсии . Таким образом, вводят корректировку на число параметров, оцениваемых по наблюдаемым данным. Корректировка состоит в уменьшении знаменателя на указанное число. В модели (5) это число равно (m+1). В случае задачи восстановления линейной функции одной переменной оценка остаточной дисперсии имеет вид поскольку число оцениваемых параметров m + 1 =2. Еще раз - почему при подборе вида модели знаменатель дроби, оценивающей остаточную дисперсию, приходится корректировать на число параметров? Если этого не делать, то придется заключить, что всегда многочлен второй степени лучше соответствует данным, чем линейная функция, многочлен третьей степени лучше приближает исходные данные, чем многочлен второй степени, и т.д. В конце концов доходим до многочлена степени (n-1) с nкоэффициентами, который проходит через все заданные точки. Но его прогностические возможности, скорее всего, существенно меньше, чем даже у линейной функции. Излишнее усложнение статистических моделей вредно. Типовое поведение скорректированной оценки остаточной дисперсии в случае расширяющейся системы моделей (т.е. при возрастании натурального параметра m) выглядит так. Сначала наблюдаем заметное убывание. Затем оценка остаточной дисперсии колеблется около некоторой константы (дисперсии погрешности). Поясним ситуацию на примере модели восстановления зависимости, выраженной многочленом: Пусть эта модель справедлива при При в скорректированной оценке остаточной дисперсии учитываются не только погрешности измерений, но и соответствующие (старшие) члены многочлена (предполагаем, что коэффициенты при них отличны от 0). При имеем Следовательно, скорректированная оценка остаточной дисперсии будет колебаться около указанного предела. Поэтому представляется естественным, что в качестве оценки неизвестной статистику степени многочлена (полинома) можно использовать первый локальный минимум скорректированной оценки остаточной дисперсии, т.е. В работе [40] найдено предельное распределение этой оценки степени многочлена. Теорема. При справедливости некоторых условий регулярности где Таким образом, предельное распределение оценки m* степени многочлена (полинома) является геометрическим. Это означает, в частности, что оценка не является состоятельной. При этом вероятность получить меньшее значение, чем истинное, исчезающе мала. Далее имеем: Разработаны и иные методы оценивания неизвестной степени многочлена, например, путем многократного применения процедуры проверки адекватности регрессионной зависимости с помощью критерия Фишера. Предельное поведение таких оценок - таково же, как в приведенной выше теореме, только значение параметра иное. Отметим, что для степени многочлена давно предложены состоятельные оценки [41]. Для этого достаточно уровень значимости (при проверке адекватности регрессионной зависимости с помощью критерия Фишера) сделать убывающим при росте объема выборки. Построение информативного подмножества признаков. В более общем случае многомерной линейной регрессии данные имеют вид , где - вектор предикторов (факторов, объясняющих переменных), а модель такова: (6) (здесь K - некоторое подмножество множества {1,2,…,n}; - те же, что и в модели (5); a_j - неизвестные коэффициенты при предикторах с номерами из K). Множество К называют информативным подмножеством признаков, поскольку согласно формуле (6) остальные признаки можно отбросить без потери информации. Проблема состоит в том, что при анализе реальных данных неизвестно, какие признаки входят в К, а какие нет. Ясна важность оценивания информативного подмножества признаков. Модель (5) сводится к модели (6), если В модели (5) есть естественный порядок ввода предикторов в рассмотрение - в соответствии с возрастанием степени многочлена, а в модели (6) естественного порядка нет, поэтому здесь приходится рассматривать произвольное подмножество множества предикторов. Есть только частичный порядок - чем мощность подмножества меньше, тем лучше. Модель (6) особенно актуальна в технических исследованиях (см. многочисленные примеры в журнале «Заводская лаборатория»). Она применяется в задачах управления качеством продукции и других технико-экономических исследованиях, в медицине, экономике, маркетинге и социологии, когда из большого числа факторов, предположительно влияющих на изучаемую переменную, надо отобрать по возможности наименьшее число значимых факторов и с их помощью сконструировать прогнозирующую формулу (6). Задача оценивания модели (6) разбивается на две последовательные задачи: оценивание множества K - подмножества множества всех предикторов, а затем - неизвестных параметров a_j. Методы решения второй задачи хорошо известны и подробно изучены (обычно используют метод наименьших квадратов). Гораздо хуже обстоит дело с оцениванием объекта нечисловой природы K. Как уже отмечалось, существующие методы - в основном эвристические, они зачастую не являются даже состоятельными. Даже само понятие состоятельности в данном случае требует специального определения. Определение. Пусть K₀ - истинное подмножество предикторов, т.е. подмножество, для которого справедлива модель (6), а подмножество предикторов K_n - его оценка. Оценка K_n называется состоятельной, если , где Δ - символ симметрической разности множеств; Card(K) означает число элементов множества K, а предел понимается в смысле сходимости по вероятности. Задача оценивания в моделях регрессии, таким образом, разбивается на две - оценивание структуры модели и оценивание параметров при заданной структуре. В модели (5) структура описывается неотрицательным целым числомm, в модели (6) - множеством K. Структура - объект нечисловой природы. Задача ее оценивания сложна, в то время как задача оценивания численных параметров при заданной структуре хорошо изучена, разработаны эффективные (в смысле прикладной математической статистики) методы. Такова же ситуация и в других методах многомерного статистического анализа - в факторном анализе (включая метод главных компонент) и в многомерном шкалировании, в иных оптимизационных постановках проблем прикладного многомерного статистического анализа. Множество K и параметры a_j линейной зависимости можно оценивать путем решения задачи оптимизации , (7) в которой минимум берется по K, a_j, . Математическая природа множества, по которому проводится минимизация, весьма сложна. Это и объясняет тот факт, что к настоящему времени разработано много эвристических методов оценивания информативного множества параметров К, свойства которых плохо изучены. На основе общих результатов нечисловой статистики об асимптотическом поведении решений экстремальных статистических задач удалось показать, что оценки, полученные путем решения задачи (7), являются состоятельными [42]. Предыдущая страница \| Оглавление \| Следующая страница	Бланки документов Книги Интересные ссылки Файлы Кейсы и задачи Видео Цитаты и афоризмы Софт

«Управление и Оптимизация Производственного Предприятия»

Обратная связь