1. Парная линейная регрессия и корреляция
Цель работы - овладеть навыками определения параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel.
1.1 Решение задач с использованием формул
1.1.1 Параметры a и b линейной регрессии
рассчитываются с помощью метода наименьших квадратов. Для этого составим систему нормальных уравнений (1).
По исходным данным определим , , , , в расчетной таблице 1.
Таблица 1 Расчет показателей парной линейной регрессии и корреляции
№
2
2
1 9.8 10.2 99.96 96.04 104.04 9.847 0.035 0.125 -1.575 2 11.3 10.1 114.13 127.69 102.01 10.088 0.001 0.000 11.300 3 11.5 10.1 116.15 132.25 102.01 10.120 -0.002 0.000 11.500 4 11.3 9.2 103.96 127.69 84.64 10.088 -0.096 0.788 11.300 5 10.9 10.7 116.63 118.81 114.49 10.023 0.063 0.458 10.900 6 11.4 9 102.6 129.96 81 10.104 -0.123 1.218 11.400 7 12.6 10.4 131.04 158.76 108.16 10.297 0.010 0.011 12.409 8 12.2 11.1 135.42 148.84 123.21 10.232 0.078 0.753 12.164 Итого 91 80.8 919.89 1040.04 819.56 80.797 -0.034 3.353 79.397 Среднее 11.375 10.1 114.986 130.005 102.445 10.100 -0.004 ´ ´
Система нормальных уравнений составит:
Решив систему, получим: a = 8,2717; b = 0,1607.
Уравнение линейной регрессии имеет вид:
.
Параметры уравнения можно определить и по следующим формулам:
= 10,1 – 0,1608. 11,375= 8,2709
Величина коэффициента регрессии b = 0,1607 означает, что с ростом среднедушевых доходов на 1 тыс. руб. общий коэффициент рождаемости увеличится в среднем на 0,1607 раз.
1.1.2 Средний коэффициент эластичности для линейной регрессии находится по формуле:
0,181
При увеличении величины среднедушевого дохода на 1%, общий коэффициент рождаемости в среднем увеличится на 0,181%.
1.1.3 Линейный коэффициент парной корреляции (r) определяется по формуле:
,
где средние квадратические отклонения:
тогда , значит связь между среднедушевым доходом и рождаемостью очень слабая.
1.1.4 Определим коэффициент детерминации:
Таким образом, вариация величины рождаемости на 3,6% зависит от вариации уровня среднедушевых доходов населения, а на остальные (100%-3,6%) 96,4% − от вариации факторов, не включенных в модель.
Подставляя в уравнение регрессии фактические значения x, определим теоретические (расчетные) значения (таблица 1) и найдем величину средней ошибки аппроксимации ():
==0,425
Так как допустимый предел значений не более 8-10%, качество модели по данному показателю удовлетворительное. Однако средняя ошибка аппроксимации не является главным критерием оценки значимости модели.
С помощью F−критерия Фишера оценим статистическую надежность результатов регрессионного моделирования:
Fфакт==.
Fтабл = 5,99 при .
Так как Fфакт < Fтабл, уравнение регрессии не значимо, статистически не надежно.
1.2 Решение задачи с помощью MS Excel
1.2.1 Параметры линейной регрессии
можно определить с помощью встроенной статистической функции ЛИНЕЙН MS Excel. Порядок вычисления следующий:
1) ввожу исходные данные (рисунок 1).
2) выделяю область пустых ячеек 5´2 (5 строк, 2 столбца) с целью вывода результатов регрессионной статистики или область 1´2 – для получения только оценок коэффициентов регрессии;
3) активизирую Мастер функций любым из способов:
а) в главном меню выбираю Вставка / Функция;
б) на панели инструментов Стандартная щелкаю по кнопке Вставка функции;
Рисунок 1 Ввод данных для корреляционно-регрессионного анализа
4) в окне «Категория» выбераю Статистические, в окне «Функция» – ЛИНЕЙН. ............