Проста лінійна регресія

У статистиці, простою лінійною регресією є лінійна регресійна модель з однією незалежною змінною.[1][2][3][4] Тобто, її розглядають у двовимірному просторі вибірки, утвореному однією незалежною змінною та однією залежною змінною (зазвичай х і у — координати в декартовій системі координат). Модель призначена для знаходження лінійної функції (не вертикальною прямої) залежності, яка якомога точніше прогнозує значення залежної змінної як функції незалежної змінної.Прикметник простий вказує на залежність залежної змінної від одного предиктора.

Закон Оукена в макроекономіці є прикладом простої лінійної регресії. Тут ВВП (залежна змінна) вважається лінійно залежним від зміни рівня безробіття.

Далі в статті вважатимемо, що використовується звичайна регресія отримана методом найменшого квадратичного відхилення.У цьому випадку, нахил (кутовий коефіцієнт прямої) цієї прямої дорівнює кореляції між y і x скоригований на коефіцієнти стандартних відхилень цих змінних. Точка перетину отриманої лінії проходить через центр мас (x, y) даного набору точок.

Допасування регресійної лінії

Припустимо, що є n точок {(xi, yi), i = 1, …, n}. Функція, яка описує зв'язок х і y записується:

Завдання полягає в тому, щоб знайти рівняння прямої лінії

яка б забезпечувала «найкращий» допасування наявних точок даних. Тут під «найкращий» розуміємо в сенсі найменшого квадратичного відхилення: лінія, що мінімізує суму квадратів похибок лінійної регресійної моделі. Іншими словами, α (перетин з віссю y) і β (нахил) є розв'язком наступної задачі мінімізації:

Просто розкриваючи дужки у виразі отримуємо квадратичний вираз відносно α і β, можна показати, що значення α і β, які мінімізують цільову функцію Q[5] записуються формулами:

де rxy — коефіцієнт кореляції між x і y; а sx і sy — це стандартні відхилення x і y. Горизонтальна риска над величиною вказує середнє значення цієї величини. Наприклад:

Підставляючи вирази і в

маємо

Це показує, що rxy — нахил регресійної лінії для стандартизованих точок вибірки (і ця лінія проходить через початок координат).

Іноді корисно вираховувати rxy даних з інших причин, використовуючи формулу:

Коефіцієнт детермінації (R-квадрат) дорівнює , коли маємо справу з лінійною моделлю з однією незалежною змінною. Докладніше в статті про коефіцієнт кореляції вибірки.

Чисельні властивості

  1. Регресійна лінія проходить через центр мас точок, , якщо модель включає в себе вільний член (тобто, не пересунена в початок координат)
  2. Сума похибок дорівнює нулю, якщо модель включає в себе вільний член:
  1. Значення похибок і x некорельовані, тобто (не залежно від того чи присутній в моделі вільний член):

Виведення оцінок в простій регресії

Знайдемо і які мінімізують суму квадратичних похибок (СКП):

Щоб знайти мінімум, візьмемо частинні похідні по і

Перед взяттям частинної похідно по , підставимо попередній результат для .

Тепер візьмемо похідну по :

І, нарешті, підставимо   у вираз для визначення 

Див. також

Джерела

Примітки

🔥 Top keywords: Головна сторінкаЧемпіонат Європи з футболу 2024Спеціальна:ПошукВікіпедія:Культурна спадщина та видатні постаті (2024)Збірна України з футболуБріджертониЧемпіонат Європи з футболу 2020YouTubeУкраїнаЧемпіонат Європи з футболуЗбірна Румунії з футболуРебров Сергій СтаніславовичГлобальний саміт мируРадіо «Свобода»ДефолтРумуніяЛунін Андрій ОлексійовичНаціональна суспільна телерадіокомпанія УкраїниДень батькаДовбик Артем ОлександровичШевченко Андрій МиколайовичЯрмоленко Андрій МиколайовичЧемпіонат Європи з футболу 2024 (кваліфікаційний раунд)Мудрик Михайло Петрович138-ма зенітна ракетна бригада (Україна)FacebookЄрмак Андрій БорисовичСексВійськові звання України22-га окрема механізована бригада (Україна)Зінченко Олександр ВолодимировичТериторіальний центр комплектування та соціальної підтримкиДумками навиворіт 2Чемпіонат Європи з футболу 2016Список операторів систем розподілу України2024 у телебаченніMegogoСписок українських жіночих іменКиїв