ФЭНДОМ


Шаблон:Чистить

Статисти́ческие ме́тоды — методы анализа статистических данных. Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Статистические методы анализа данных как область научно-практической деятельностиПравить

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Кратко рассмотрим три только что выделенческих методов и моделей, предназначенных для определенной области применения, может быть весьма сложным и математизированным (см., например, монографию [1]), с другой - результаты представляют не всеобщий интерес, а лишь для некоторой группы специалистов. Можно сказать, что работы вида б) нацелены на решение типовых задач конкретной области применения.

Прикладная статистикаПравить

я область знаний, чем математическая статистика. Это очень четко проявляется в процессе обучения. Курс математической статистики состоит в основном из доказательств теорем, в то время как в курсах статистических методов основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся для обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе). Так построены и учебники [2] и [4].

Прикладная статистика – одна из статистических наук, она не относится к математике. Внутренняя структура статистики как науки была выявлена и обоснована при создании в 1990 г. Всесоюзной статистической ассоциации (см., например, статью [3]). Прикладная статистика - методическая дисциплина, являющаяся центром, идейным ядром статистики. Внутри прикладной статистики выделяют задачи описания данных, оценивания и проверки гипотез.

Описание вида данных и, при необходимости, механизма их порождения – начало любого статистического исследования. Отметим, что для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей, оставляя детерминированные методы экономической учебной дисциплине «Общая теория статистики».

Мы не считаем возможным противопоставлять детерминированные и вероятностно-статистические методы. Мы рассматриваем их как последовательные этапы статистического анализа. На первом этапе необходимо проанализировать имеющие данные, представить их в удобном для восприятия виде с помощью таблиц и диаграмм. Затем статистические данные целесообразно проанализировать на основе тех или иных вероятностно-статистических моделей. Отметим, что возможность более глубокого проникновения в суть реального явления или процесса обеспечивается разработкой адекватной математической модели.

В простейшей ситуации статистические данные – это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат – числа, а часть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, т.е. его изменение во времени, - электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.

Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных – числовые и нечисловые. Соответственно прикладная статистика разбивается на две части – числовую статистику и нечисловую статистику.

Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д. (см. [2]).

В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т.н. цензурированные данные, состоящие из набора чисел – продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.

Обычно отдельно рассматривают статистические методы анализа данных первых трех типов. Это ограничение вызвано тем отмеченным выше обстоятельством, что математический аппарат для анализа данных нечисловой природы – существенно иной, чем для данных в виде чисел, векторов и функций. Статистика нечисловых данных рассмотрена в [2, 4].

Вероятностно-статистическое моделированиеПравить

При применении статистических методов в конкретных областях знаний и отраслях народного хозяйства получаем научно-практические дисциплины типа "статистические методы в промышленности", "статистические методы в медицине" и др. С этой точки зрения эконометрика - это "статистические методы в экономике" [4]. Эти дисциплины группы б) обычно опираются на вероятностно-статистические модели, построенные в соответствии с особенностями области применения. Весьма поучительно сопоставить вероятностно-статистические модели, применяемые в различных областях, обнаружить их близость и вместе с тем констатировать некоторые различия. Так, видна близость постановок задач и применяемых для их решения статистических методов в таких областях, как научные медицинские исследования, конкретные социологические исследования и маркетинговые исследования, или, короче, в медицине, социологии и маркетинге. Они часто объединяются вместе под названием «выборочные исследования».

Отличие выборочных исследований от экспертных проявляется, прежде всего, в числе обследованных объектов или субъектов – в выборочных исследованиях речь обычно идет о сотнях, а в экспертных – о десятках. Зато технологии экспертных исследований гораздо изощреннее. Еще более выражена специфика в демографических или логистических моделях, при обработке нарративной (текстовой, летописной) информации или при изучении взаимовлияния факторов. Ряд иных полезных моделей рассмотрен в [5-7].

Вопросы надежности и безопасности технических устройств и технологий, теории массового обслуживания подробно рассмотрены, например, в ставших классическими монографиях [8-10].

Статистический анализ конкретных данныхПравить

Применение статистических методов и моделей для статистического анализа конкретных данных тесно привязано к проблемам соответствующей области. Результаты третьего из выделенных видов научной и прикладной деятельности находятся на стыке дисциплин. Их можно рассматривать как примеры практического применения статистических методов. Но не меньше оснований относить их к соответствующей области деятельности человека.

Например, результаты опроса потребителей растворимого кофе естественно отнести к маркетингу (что и делают, читая лекции по маркетинговым исследованиям). Исследование динамики роста цен с помощью индексов инфляции, рассчитанных по независимо собранной информации, представляет интерес прежде всего с точки зрения экономики и управления народным хозяйством (как на макроуровне, так и на уровне отдельных организаций).

Заказчики прикладных исследований получают отчеты, в которых проблемы соответствующих областей деятельности рассмотрены подробно. Примером такого отчета является монография [5], посвященная подходам к проблеме вероятностно-статистического моделирования процессов налогообложения.

О высоких статистических технологияхПравить

Термин "высокие технологии" популярен в современной научно-технической литературе. Он используется для обозначения наиболее передовых технологий, опирающихся на последние достижения научно-технического прогресса. Есть такие технологии и среди технологий статистического анализа данных - как в любой интенсивно развивающейся научно-практической области. Они подробно обсуждаются в настоящем учебнике. Их роль подчеркнута тем, что термин «высокие статистические технологии» вынесен в название учебника.

Обсудим этот пока не вполне привычный термин (он был введен в статье [11], опубликованной в 2003 г.). Каждое из трех слов ны в соответствии с нею (а не являются т.н. эвристическими).

Термин "статистические" привычен. Статистические данные – это результаты измерений, наблюдений, испытаний, анализов, опытов, а "статистические технологии" - это технологии анализа статистических данных.

Наконец, сравнительно редко используемый применительно к статистике термин "технологии". Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:

- планирование статистического исследования;

- организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);

- непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);

- первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оцеей гипотезы),

- более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;

- проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок;

- применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),

- составление итоговых отчетото информационный технологический процесс, другими словами, та или иная информационная технология. Статистическая информация подвергается разнообразным операциям (последовательно, параллельно или по более сложным схемам). В настоящее время об автоматизации всего процесса статистического анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди статистиков.

Программное обеспечение статистических методовПравить

В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Мы не сочли целесообразным приводить ссылки на те или иные пакеты программ по нескольким причинам.

Во-первых, популяции программных продуктов быстро обновляются. Пакеты программ, разработанные 10-15 лет назад, безнадежно устарели. Новые версии, как правило, весьма отличаются от предшественников десятилетней давности. В то же время лучшие книги 40-60-х годов по статистическим методам остаются актуальными и сейчас. Например, монографии [12-14].

Во-вторых, каждый программный продукт обладает определенными достоинствами и недостатками. Как показывает опыт [15], при сравнении нескольких пакетов программ крайне трудно сделать обоснованный вывод о том, какой из них следует предпочесть.

Необходимо отметить, что между математической и прикладной статистикой имеется и с течением времени углубляется разрыв. Он проявляется, в частности, в том, что большинство методов, включенных в статистические и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической стистике. В результате разрыва специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки. Типовые ошибки при применении критериев согласия Колмогорова и омега-квадрат давно проаналваны в литературе (например, в статье 1985 г. [16] и учебнике [2]). Об удручающих результатах анализа государственных стандартов по статистическим методам управления качеством рассказ

По оценкам экспертов, распространенные статистические пакеты программ обычно соответствуют уровню научных исследований 60-70-х годов. В них нет большинства статистических методов, включенных в современные учебники [2, 4]. Впрочем, как показывает практика преподавания, студенты и слушатели легко реализуют новые статистические методы с помощью подручных вычислительных средств.

О перспективах развития статистических методовПравить

Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Отметим, что актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.

Ситуация с внедрением современных статистических методов на предприятиях и в организациях различных отраслей народного хозяйства внушает оптимизм. На отечественных предприятиях продолжают развиваться структуры, нуждающиеся в статистических методах, - подразделения качества, надежности, управления персоналом, центральные заводские лаборатории и другие. Толчок к развитию в последние годы получили службы контроллинга, маркетинга и сбыта, логистики, сертификации, прогнозирования и планирования, инноваций и инвестиций, управления рисками, которым также полезны различные статистические методы, в частности, методы экспертных оценок. Включенные в учебник методы необходимы органам государственного и муниципального управления, организациям силовых ведомств, транспорта и связи, медицины, образования, агропромышленного комплекса, научным и п работникам всех областей деятельности.

ЛитератураПравить

1. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

2. Орлов А.И. Прикладная статистика. Учебник. – М.: Экзамен, 2006. – 671 с.

3. Орлов А.И. О перестройке статистической науки и её применений. - Журнал "Вестник статистики". 1990. No.1. С.65 - 71.

4. Орлов А.И. Эконометрика. Учебник для вузов. Изд. 3-е, исправленное и дополненное. - М.: Изд-во "Экзамен", 2004. – 576 с.

5. Математическое моделирование процессов налогообложения (подходы к проблеме) (совместно с В. Г. Кольцовым, Н.Ю. Ивановой и др.). - М.: Изд-во ЦЭО Минобразования РФ, 1997. – 232 с.

6. Орлов А.И., Федосеев В.Н. Менеджмент в техносфере: Учебное пособие. – М.: Издательский центр «Академия», 2003. – 384 с.

7. Орлов А.И. Теория принятия решений. Учебник. – М.: Экзамен, 2006. – 576 с.

8. Гнеденко Б.В., Беляев Ю.К., Соловьев А.Д. Математические методы в теории надежности. - М.: Наука, 1965. - 524 с.

9. Гнеденко Б.В., Коваленко И.Н. Введение в теорию массового обслуживания. - М.: Наука, 1966. - 301 с.

10. Нейлор Т. Машинные имитационные эксперименты с моделями экономических систем. – М.: Мир, 1975. - 500 с.

11. Орлов А.И. Высокие статистические технологии. - Журнал «Заводская лаборатория». 2003. Т.69. No.11. С.55-60.

12. Крамер Г. Математические методы статистики. – М.: Мир, 1948 (1-е изд.), 1975 (2-е изд.). – 648 с.

13. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).

14. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. Изд. 3-е, стереотипное. – М.: Наука, 1969. – 512 с.

15. Орлов А.И. Математическое обеспечение сертификации: сравнительный анализ диалоговых систем по статистическому контролю. – Журнал «Заводская лаборатория». 1996. Т.62. No.7. С.46-49.

16. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат. – Журнал «Заводская лаборатория».1985. Т.51. No.1. С.60-62.

17. Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. ISBN 0-471-17082-8

Смотри также Править