Викия

Математика

Регрессионный анализ

1457статей на
этой вики
Добавить новую страницу
Обсуждение0 Поделиться

Обнаружено использование расширения AdBlock.


Викия — это свободный ресурс, который существует и развивается за счёт рекламы. Для блокирующих рекламу пользователей мы предоставляем модифицированную версию сайта.

Викия не будет доступна для последующих модификаций. Если вы желаете продолжать работать со страницей, то, пожалуйста, отключите расширение для блокировки рекламы.

Регрессионный анализ - статистический метод исследования зависимости (регрессии) между зависимым признаком Y и независимыми (регрессорами, предикторами) X_1, X_2, ..., X_p.

Строго регрессионную зависимость можно определить следующим образом. Пусть Y, X_1, X_2, ..., X_p случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений X_1=x_1, X_2=x_2, ..., X_p=x_p определено условное математическое ожидание

y(x_1,x_2, ..., x_p)=E(Y|X_1=x_1, X_2=x_2, ..., X_p=x_p),

то функция y(x_1,x_2, ..., x_p) называется регрессией величины Y по величинам X_1, X_2, ..., X_p, а ее график линией регрессии Y по X_1, X_2, ..., X_p, или уравнением регрессии. Зависимость Y от X_1, X_2, ..., X_p проявляется в изменении средних значений Y при изменении X_1, X_2, ..., X_p. Хотя при каждом фиксированном наборе значений X_1=x_1, X_2=x_2, ..., X_p=x_p величина Y остается случайной величиной с определенным рассеянием. Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении X_1, X_2, ..., X_p, используется средняя величина дисперсии Y при разных наборах значений X_1, X_2, ..., X_p (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

На практике линия регрессии чаще всего ищется в виде линейной функции Y=b_0+b_1X_1+b_2X_2+...++b_pX_p (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок \hat{Y} (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

\sum_{k=1}^{N} (Y_k-\hat{Y_k})^2 ->min

(N - объем выборки). Этот подход основан на том известном факте, что фигурирующая в приведенном выражении сумма принимает минимальное значение именно для того случая, когда Y=y(x_1,x_2,...x_p). Применение метода наименьших квадратов при регрессионном анализе для оценивания параметров модели возможно при выполнении следующих условий:

  • равенства условных дисперсий: D(Y/X)=const;
  • независимости ошибок от предикторов и нормального их распределения с нулевым средним и постоянной дисперсией;
  • попарного нормального распределения всех признаков модели.

Параметры b_i являются частными коэффициентами корреляции; (b_i)^2 интерпретируется как доля дисперсии Y, объясненная X_i, при закреплении влияния остальных предикторов, т.е. измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределенности в оценках , которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа. Говоря о нелинейных моделях регрессионного анализа важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьезные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида X_1X_2, X_1X_2X_3, свидетельствующее о наличии взаимодействий между признаками X_1, X_2 и т.д.

Литература Править

da:Regressionsanalysehu:Regressziószámítás nl:Regressie-analyseno:Regresjonsanalyse pl:Regresja (statystyka)su:Analisis régrési sv:Regressionsanalys vi:Phân tích hồi qui

Викия-сеть

Случайная вики