Дискриминантный анализ
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Чувашский государственный университет имени И. Н. Ульянова»
(ФГБОУ ВО «ЧГУ им. И. Н. Ульянова»)
Экономический факультет
Кафедра актуарной и финансовой математики
КОНТРОЛЬНАЯ РАБОТА
по «Многомерным статистическим методам»
на тему «Дискриминантный анализ»
Вариант 17
Выполнил: студент группы
__________ ____________
Проверил: старший
преподаватель Д.В. Бобин
г. Чебоксары, 2022
В таблицах «Класс Н – надежные клиенты» и «Класс Д – дефолтные клиенты» приведены характеристики студентов:
X1- возраст (лет);
X2- пол (1 – муж., 0 – жен.);
X3- брак (1 – да, 0 – нет);
X4- количество иждивенцев (чел.);
X5- заявленный среднемесячный доход (руб.);
X6- месячный платеж (руб.);
X7- срок проживания в регионе (лет);
Y- благонадежность (1 – благонадежный, 0 – дефолтный).
Д |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
0 |
23 |
1 |
0 |
2 |
7500 |
7175 |
16 |
0 |
38 |
0 |
0 |
1 |
9500 |
2665 |
38 |
0 |
35 |
0 |
0 |
2 |
12500 |
6048 |
7 |
0 |
28 |
1 |
1 |
1 |
12000 |
4715 |
26 |
0 |
38 |
1 |
1 |
1 |
10500 |
3895 |
21 |
0 |
51 |
1 |
0 |
0 |
7000 |
5125 |
20 |
0 |
39 |
0 |
1 |
2 |
12900 |
6662 |
2 |
0 |
38 |
0 |
1 |
2 |
16500 |
6458 |
5 |
0 |
30 |
1 |
0 |
0 |
6500 |
4715 |
19 |
0 |
35 |
0 |
0 |
3 |
8500 |
5842 |
23 |
0 |
36 |
0 |
1 |
1 |
10300 |
7790 |
18 |
0 |
23 |
1 |
0 |
3 |
18200 |
2972 |
9 |
0 |
27 |
0 |
1 |
1 |
9000 |
3024 |
4 |
0 |
28 |
0 |
1 |
2 |
7900 |
3178 |
7 |
0 |
32 |
0 |
0 |
0 |
6500 |
3075 |
29 |
0 |
25 |
1 |
0 |
0 |
10000 |
6662 |
3 |
0 |
38 |
0 |
1 |
1 |
10800 |
4647 |
16 |
Н |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
1 |
23 |
1 |
1 |
2 |
11500 |
2255 |
17 |
1 |
29 |
0 |
1 |
1 |
30500 |
4168 |
26 |
1 |
35 |
0 |
1 |
1 |
15000 |
1538 |
8 |
1 |
28 |
1 |
1 |
4 |
34500 |
5535 |
8 |
1 |
39 |
1 |
1 |
0 |
7000 |
3639 |
3 |
1 |
32 |
1 |
0 |
0 |
11500 |
6355 |
4 |
1 |
26 |
1 |
1 |
1 |
15500 |
2255 |
5 |
1 |
33 |
1 |
1 |
1 |
9000 |
1913 |
2 |
1 |
36 |
1 |
0 |
1 |
14500 |
4852 |
19 |
1 |
38 |
1 |
0 |
1 |
23200 |
1896 |
8 |
1 |
30 |
0 |
1 |
0 |
22500 |
3485 |
30 |
1 |
53 |
1 |
1 |
1 |
15500 |
6765 |
25 |
1 |
31 |
1 |
0 |
1 |
7700 |
1777 |
4 |
1 |
28 |
0 |
0 |
1 |
15000 |
922 |
13 |
1 |
31 |
1 |
0 |
1 |
22500 |
6458 |
3 |
1 |
28 |
1 |
0 |
0 |
10000 |
4100 |
18 |
1 |
38 |
0 |
1 |
1 |
8500 |
410 |
4 |
1 |
36 |
0 |
1 |
0 |
8900 |
1777 |
19 |
1 |
24 |
1 |
0 |
0 |
10500 |
5842 |
3 |
1 |
38 |
0 |
1 |
1 |
16000 |
3588 |
15 |
1 |
43 |
0 |
0 |
2 |
39200 |
2392 |
26 |
1 |
25 |
1 |
1 |
0 |
18500 |
2921 |
6 |
1 |
27 |
1 |
1 |
0 |
11000 |
6252 |
7 |
1 |
34 |
0 |
1 |
0 |
16000 |
4408 |
5 |
1 |
23 |
1 |
1 |
0 |
11000 |
3827 |
17 |
1 |
31 |
1 |
1 |
3 |
15700 |
2768 |
16 |
1 |
40 |
0 |
1 |
0 |
9200 |
1093 |
37 |
1 |
32 |
1 |
1 |
3 |
29500 |
2972 |
5 |
1 |
36 |
0 |
1 |
0 |
32000 |
2562 |
32 |
1 |
40 |
1 |
1 |
0 |
14000 |
5330 |
7 |
1 |
35 |
1 |
1 |
0 |
5200 |
1982 |
4 |
1 |
51 |
1 |
1 |
0 |
8200 |
3588 |
27 |
1 |
32 |
1 |
1 |
0 |
12500 |
7175 |
5 |
1 |
39 |
1 |
1 |
1 |
19500 |
3024 |
2 |
1 |
37 |
1 |
0 |
2 |
19500 |
3024 |
31 |
1 |
32 |
1 |
1 |
1 |
14500 |
4612 |
16 |
1 |
46 |
0 |
0 |
0 |
11700 |
6355 |
8 |
1 |
30 |
1 |
0 |
1 |
10400 |
2204 |
2 |
1 |
29 |
1 |
1 |
0 |
11800 |
5638 |
3 |
1 |
28 |
0 |
1 |
1 |
13500 |
1896 |
9 |
1 |
40 |
0 |
0 |
1 |
30000 |
4715 |
39 |
1 |
32 |
1 |
1 |
0 |
22500 |
1025 |
18 |
1 |
37 |
1 |
1 |
2 |
35000 |
3485 |
31 |
1 |
36 |
1 |
1 |
1 |
14000 |
5228 |
30 |
1 |
58 |
1 |
1 |
0 |
9500 |
3178 |
5 |
1 |
37 |
0 |
1 |
1 |
30500 |
4612 |
6 |
1 |
22 |
0 |
0 |
0 |
13500 |
3553 |
20 |
1 |
25 |
1 |
0 |
1 |
16000 |
2118 |
9 |
1 |
38 |
0 |
0 |
1 |
10000 |
1025 |
4 |
1 |
28 |
1 |
1 |
0 |
13500 |
5638 |
4 |
1 |
27 |
1 |
1 |
0 |
15500 |
5842 |
16 |
1 |
38 |
0 |
0 |
0 |
32500 |
2768 |
6 |
1 |
31 |
1 |
1 |
1 |
21500 |
3690 |
27 |
1 |
33 |
1 |
0 |
0 |
32000 |
7278 |
17 |
1 |
32 |
1 |
0 |
1 |
18500 |
3417 |
6 |
1 |
34 |
1 |
1 |
2 |
10500 |
2306 |
2 |
1 |
32 |
1 |
1 |
0 |
10500 |
2460 |
32 |
1 |
38 |
1 |
1 |
2 |
18500 |
4818 |
3 |
Задание:
0. Удалить из матриц Н и Д строки с номером N – порядковый номер студента в группе.
1. Найти коэффициенты линейной дискриминантной функции: K = (k 1, k 2 , ..., k p).
2. Найти константу дискриминации: C.
3. Составить дискриминантное уравнение: k 1Х1 + k 2Х2 + ... + k pХp = C.
4. Оценить качество полученной модели с помощью долей ошибок hj
5. НАПИСАТЬ ОТЧЕТ ПО КОНТРОЛЬНОЙ РАБОТЕ: титульник, вариант; статистические данные для варианта; ход решения с расчетами, пояснениями, комментариями и формулами; выводы.
Литература:
1. Ссылка на видео выполнения КР в MS Excel: https://cloud.mail.ru/public/sTpx/4Cdpn3LDL .
2. Сошникова Л.А. и др. Многомерный статистический анализ в экономике: Учеб. пособие для вузов / Под ред. В.Н. Тамашевича. – М.: Юнити-Дана, 1999. – 598 с.
3. Дубров А.М. и др. Многомерные статистические методы: Учебник. – М.: Финансы и статистика, 2000. – 352 с.
4. Тихомиров Н.П. Методы эконометрики и многомерного статистического анализа: Учебник / Н.П. Тихомиров и др. – Москва: Экономика, 2011. – 647 с.
5. Александровская Ю.П. Классификация многомерных данных в экономике: дискриминантный анализ. — Казань, 2018. — 80 c. // Электронно-библиотечная система IPR BOOKS. — URL: http://www.iprbookshop.ru/94981.html. (Доступна при регистрации через электронную библиотеку ЧГУ).
Решение:
Матрица Д имеет размерность 17*7, матрица Н – 58*7.
- Найдите коэффициенты линейной дискриминантной функции: K.
Коэффициенты дискриминантной функции найдем по формуле:
K = S∗−1 (X̅н − X̅д),
где S∗−1 – обратная объединенная ковариационная матрица,
X̅ – векторы средних значений надежных и дефолтных клиентов.
Объединенная ковариационная матрица находится по формуле:
S∗ = ((n1−1)Sн+(n2−1)Sд)/(n1+n2−2),
где Sн, Sд– ковариационные матрицы надежных и дефолтных клиентов,
n1, n2 – число строк в таблицах надежных и дефолтных клиентов.
Средние значения признаков Х матрицы ДЕФОЛТНЫХ клиентов:
?̅ А |
33,2 |
0,4 |
0,5 |
1,3 |
10358,8 |
4979,3 |
15,5 |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Средние значения признаков Х матрицы НАДЕЖНЫХ клиентов:
?̅ В |
33,86 |
0,69 |
0,67 |
0,78 |
17003,45 |
3632,91 |
13,34 |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Ковариационная матрица SА:
SА |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Х1 |
49,2 |
-0,8 |
0,4 |
-1,5 |
-2045,7 |
1362,6 |
17 |
Х2 |
-0,8 |
0,2 |
-0,1 |
-0,1 |
-47,8 |
23,8 |
0,3 |
Х3 |
0,4 |
-0,1 |
0,2 |
0,0 |
413,5 |
31,4 |
-1,5 |
Х4 |
-1,5 |
-0,1 |
0,0 |
0,9 |
1700,3 |
10270657,4 |
-2,8 |
Х5 |
-2045,7 |
-47,8 |
413,5 |
1700,3 |
10270657,4 |
439694,5 |
-13192,4 |
Х6 |
1362,6 |
23,8 |
31,4 |
157,4 |
439694,5 |
2587268,2 |
-5286,8 |
Х7 |
17,1 |
0,3 |
-1,5 |
-2,8 |
-13192,4 |
-5286,8 |
99,5 |
Ковариационная матрица SВ:
SВ |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Х1 |
49,8 |
-0,5 |
0,2 |
-0,3 |
1945,3 |
187,9 |
11,8 |
Х2 |
-0,5 |
0,2 |
0,0 |
0,1 |
-835,1 |
243,5 |
-1,2 |
Х3 |
0,2 |
0,0 |
0,2 |
0,0 |
-433,4 |
-34,9 |
0,2 |
Х4 |
-0,3 |
0,1 |
0,0 |
0,8 |
2899,0 |
-249,6 |
-0,1 |
Х5 |
1945,3 |
-835,1 |
-433,4 |
2899,0 |
68220332,9 |
1879507,2 |
26795,4 |
Х6 |
187,9 |
243,5 |
-34,9 |
-249,6 |
1879507,2 |
3060384,7 |
-773,8 |
Х7 |
11,8 |
-1,2 |
0,2 |
-0,1 |
26795,4 |
-773,8 |
112,2 |
Объединенная ковариационная матрица S∗:
S* |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Х1 |
49,64916 |
-0,54006 |
0,23813 |
-0,51996 |
1070,56832 |
445,35545 |
12,95157 |
Х2 |
-0,54006 |
0,22021 |
-0,00183 |
0,01338 |
-662,55902 |
195,37104 |
-0,82563 |
Х3 |
0,23813 |
-0,00183 |
0,22660 |
0,01832 |
-247,74264 |
-20,37693 |
-0,13685 |
Х4 |
-0,51996 |
0,01338 |
0,01832 |
0,82065 |
2636,31939 |
2250908,08950 |
-0,65786 |
Х5 |
1070,56832 |
-662,55902 |
-247,74264 |
2636,31939 |
55519034,19779 |
1563931,80091 |
18030,92426 |
Х6 |
445,35545 |
195,37104 |
-20,37693 |
-160,41579 |
1563931,80091 |
2956687,93413 |
-1762,93237 |
Х7 |
12,95157 |
-0,82563 |
-0,13685 |
-0,65786 |
18030,92426 |
-1762,93237 |
109,41923 |
Обратная объединенная ковариационная матрица S∗−1:
S∗−1 |
Х1 |
Х2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Х1 |
0,02184 |
0,07633 |
-0,02410 |
0,00002 |
0,00000 |
-0,00003 |
-0,00205 |
Х2 |
0,03242 |
4,35071 |
0,09821 |
-0,00108 |
0,00003 |
0,00054 |
0,03471 |
Х3 |
-0,03414 |
-0,43598 |
4,49464 |
-0,00054 |
0,00000 |
0,00049 |
0,01348 |
Х4 |
0,08230 |
3,46807 |
-0,23414 |
0,00402 |
0,00015 |
-0,00342 |
-0,06164 |
Х5 |
0,00000 |
-0,00014 |
0,00003 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
Х6 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
0,00000 |
Х7 |
-0,00128 |
0,06680 |
0,00254 |
0,00006 |
0,00000 |
-0,00004 |
0,00922 |
Вектор разности средних :
Х1 |
-0,7 |
Х2 |
-0,3 |
Х3 |
-0,2 |
Х4 |
0,5 |
Х5 |
-6644,6 |
Х6 |
1346,4 |
Х7 |
2,1 |
Коэффициенты линейной дискриминантной функции K:
Х1 |
-0,09 |
Х2 |
-0,62 |
Х3 |
-0,06 |
Х4 |
-6,73 |
Х5 |
0,00 |
Х6 |
0,00 |
Х7 |
-0,05 |
Линейная дискриминантная функция имеет вид: F(X) = -0,09*x1-0,62*x2-0,06*x3-6,73*x4+0,00*x5-0,00*x6-0,05*x7.
- Найдите константу дискриминации: C.
Константу дискриминации функции найдем по формуле:
C = 0,5 ∗ ( + ),
,-значения дискриминантной функции F(X) для векторов.
Для нахождения F(X̅) средние значения признаков X таблицы НАДЕЖНЫХ клиентов перемножаются с коэффициентами линейной дискриминантной функции K: (-0,09; -0,62; -0,06; -6,73;0,00;0,00; -0,05) *(33,86;0,69;0,67;0,78;17003,45;3632,91;13,34) = (-0,09) *33,86+……+(-0,05) *13,34) = -5,69. Для нахождения F(X̅) средние значения признаков X таблицы ДЕФОЛТНЫХ клиентов перемножаются с коэффициентами линейной дискриминантной функции K: (-0,7; -0,3; -0,2;0,5; -6644,6;1346,4;2,1) *(33,2;0,4;0,5;1,3;10358,8;4979,3;15,5) = ((-0,7) *33,2+……+2,1*15,5) = -10,44.
Константа дискриминации: C = 0,5 ∗ ((-5,69) +(-10,44)) = -8,07
- Составьте дискриминантное уравнение: k1x1 + k2x2 + ... + kpxp = C.
-0,09*x1-0,62*x2-0,06*x3-6,73*x4+0,00*x5-0,00*x6-0,05*x7= -8,07
4. Оцените качества полученной модели с помощью долей ошибок hj.
Для каждого объекта из тестовой выборки находим значения функции F(X) и сравниваем его со значением ДФ в центрах тяжести классов X̅н и X̅д по схеме:
ЕСЛИ |F(Oiн) − F(X̅н)| < |F(Oiн) − F(X̅д)|, ТО Oiнε"Н", ИНАЧЕ Oiнε"Д".
Д |
Y |
|
1 |
-15,28 |
Д |
2 |
-9,91 |
Д |
3 |
-14,19 |
Д |
4 |
-8,60 |
Н |
5 |
-9,53 |
Д |
6 |
-4,53 |
Д |
7 |
-14,26 |
Д |
8 |
-13,57 |
Д |
9 |
-2,78 |
Н |
10 |
-22,57 |
Д |
11 |
-8,61 |
Д |
12 |
-19,42 |
Д |
13 |
-7,42 |
Н |
14 |
-14,62 |
Д |
15 |
-2,84 |
Н |
16 |
-0,80 |
Н |
17 |
-8,59 |
Д |
Н |
Y |
|
1 |
-14,56 |
Н |
2 |
-4,17 |
Н |
3 |
-7,05 |
Н |
4 |
-23,16 |
Д |
5 |
-2,71 |
Н |
6 |
-1,14 |
Н |
7 |
-6,64 |
Н |
8 |
-8,46 |
Н |
9 |
-8,35 |
Д |
10 |
-6,14 |
Н |
11 |
0,59 |
Н |
12 |
-9,96 |
Н |
13 |
-8,60 |
Д |
14 |
-6,64 |
Н |
15 |
-5,43 |
Д |
16 |
-1,82 |
Д |
17 |
-8,48 |
Н |
18 |
-2,24 |
Н |
19 |
-0,62 |
Н |
20 |
-7,45 |
Н |
21 |
-10,23 |
Н |
22 |
0,76 |
Н |
23 |
-1,03 |
Н |
24 |
0,14 |
Н |
25 |
-1,19 |
Н |
26 |
-21,05 |
Н |
27 |
-3,43 |
Н |
28 |
-17,68 |
Н |
29 |
1,97 |
Н |
30 |
-1,52 |
Н |
31 |
-2,80 |
Н |
32 |
-4,70 |
Н |
33 |
-1,04 |
Н |
34 |
-6,77 |
Н |
35 |
-14,72 |
Н |
36 |
-7,91 |
Н |
37 |
-1,88 |
Н |
38 |
-7,85 |
Н |
39 |
-0,83 |
Н |
40 |
-6,81 |
Н |
41 |
-5,82 |
Н |
42 |
0,39 |
Н |
43 |
-11,52 |
Н |
44 |
-9,07 |
Н |
45 |
-3,92 |
Н |
46 |
-3,85 |
Н |
47 |
-0,05 |
Н |
48 |
-6,59 |
Н |
49 |
-8,10 |
Н |
50 |
-0,44 |
Н |
51 |
-0,54 |
Н |
52 |
3,27 |
Н |
53 |
-6,91 |
Н |
54 |
2,43 |
Н |
55 |
-6,51 |
Н |
56 |
-14,96 |
Н |
57 |
-2,83 |
Н |
58 |
-13,67 |
Н |
Качество модели оценим по доле ошибок hj в множестве j. В группе «Н»: h1=w1/n1, где n1 – объем группы «Н», w1 – количество ошибочно классифицированных объектов группы Н. Аналогично находим долю ошибок h2 в группе «Д»: h2=w2/n2. По всей обучающей выборке доля ошибок составить h: h=(w1+w2) / (n1+n2).
Доля ошибок в группе Н: h1=w1/n1 = 5/58 = 0,086
Доля ошибок в группе Д: h2=w2/n2 = 5/17 = 0,294
Доля ошибок по всем группам: h=(w1+w2) / (n1+n2) = (5+5) / (58+17) = 0,133.
h=0,133<0,05, следовательно, модель Д качественная.