\documentclass[a4paper, final]{article} %\usepackage{literat} % Нормальные шрифты \usepackage[14pt]{extsizes} % для того чтобы задать нестандартный 14-ый размер шрифта \usepackage{tabularx} \usepackage[T2A]{fontenc} \usepackage[utf8]{inputenc} \usepackage[russian]{babel} \usepackage{amsmath} \usepackage{amssymb} \usepackage[left=15mm, top=15mm, right=15mm, bottom=15mm, footskip=10mm]{geometry} \usepackage{ragged2e} %для растягивания по ширине \usepackage{setspace} %для межстрочно го интервала \usepackage{moreverb} %для работы с листингами \usepackage{indentfirst} % для абзацного отступа \usepackage{moreverb} %для печати в листинге исходного кода программ \usepackage{pdfpages} %для вставки других pdf файлов \usepackage{tikz} \usepackage{graphicx} \usepackage{afterpage} \usepackage{longtable} \usepackage{float} % \usepackage[paper=A4,DIV=12]{typearea} \usepackage{pdflscape} % \usepackage{lscape} \usepackage{array} \usepackage{multirow} \renewcommand\verbatimtabsize{4\relax} \renewcommand\listingoffset{0.2em} %отступ от номеров строк в листинге \renewcommand{\arraystretch}{1.4} % изменяю высоту строки в таблице \usepackage[font=small, singlelinecheck=false, justification=centering, format=plain, labelsep=period]{caption} %для настройки заголовка таблицы \usepackage{listings} %листинги \usepackage{xcolor} % цвета \usepackage{hyperref}% для гиперссылок \usepackage{enumitem} %для перечислений \newcommand{\specialcell}[2][l]{\begin{tabular}[#1]{@{}l@{}}#2\end{tabular}} \setlist[enumerate,itemize]{leftmargin=1.2cm} %отступ в перечислениях \hypersetup{colorlinks, allcolors=[RGB]{010 090 200}} %красивые гиперссылки (не красные) % подгружаемые языки — подробнее в документации listings (это всё для листингов) \lstloadlanguages{ SQL} % включаем кириллицу и добавляем кое−какие опции \lstset{tabsize=2, breaklines, basicstyle=\footnotesize, columns=fullflexible, flexiblecolumns, numbers=left, numberstyle={\footnotesize}, keywordstyle=\color{blue}, inputencoding=cp1251, extendedchars=true } \lstdefinelanguage{MyC}{ language=SQL, % ndkeywordstyle=\color{darkgray}\bfseries, % identifierstyle=\color{black}, % morecomment=[n]{/**}{*/}, % commentstyle=\color{blue}\ttfamily, % stringstyle=\color{red}\ttfamily, % morestring=[b]", % showstringspaces=false, % morecomment=[l][\color{gray}]{//}, keepspaces=true, escapechar=\%, texcl=true } \textheight=24cm % высота текста \textwidth=16cm % ширина текста \oddsidemargin=0pt % отступ от левого края \topmargin=-1.5cm % отступ от верхнего края \parindent=24pt % абзацный отступ \parskip=5pt % интервал между абзацами \tolerance=2000 % терпимость к "жидким" строкам \flushbottom % выравнивание высоты страниц % Настройка листингов \lstset{ language=python, extendedchars=\true, inputencoding=utf8, keepspaces=true, % captionpos=b, % подписи листингов снизу } \begin{document} % начало документа % НАЧАЛО ТИТУЛЬНОГО ЛИСТА \begin{center} \hfill \break \hfill \break \normalsize{МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\\ федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский политехнический университет Петра Великого»\\[10pt]} \normalsize{Институт компьютерных наук и кибербезопасности}\\[10pt] \normalsize{Высшая школа технологий искусственного интеллекта}\\[10pt] \normalsize{Направление: 02.03.01 <<Математика и компьютерные науки>>}\\ \hfill \break \hfill \break \hfill \break \hfill \break \large{Индивидуальное домашнее задание №4}\\ \large{по дисциплине}\\ \large{<<Математическая статистика>>}\\ \large{Вариант 27}\\ % \hfill \break \hfill \break \end{center} \small{ \begin{tabular}{lrrl} \!\!\!Студент, & \hspace{2cm} & & \\ \!\!\!группы 5130201/20102 & \hspace{2cm} & \underline{\hspace{3cm}} &Тищенко А. А. \\\\ \!\!\!Преподаватель & \hspace{2cm} & \underline{\hspace{3cm}} & Малов С. В. \\\\ &&\hspace{4cm} \end{tabular} \begin{flushright} <<\underline{\hspace{1cm}}>>\underline{\hspace{2.5cm}} 2025г. \end{flushright} } \hfill \break % \hfill \break \begin{center} \small{Санкт-Петербург, 2025} \end{center} \thispagestyle{empty} % выключаем отображение номера для этой страницы % КОНЕЦ ТИТУЛЬНОГО ЛИСТА \newpage \section {Задание №1} \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task1.png} \end{figure} \subsection{Пункт a} \begin{figure}[h!] \centering \includegraphics[width=0.75\linewidth]{img/task1_1.png} \end{figure} \textbf{Формулировка линейной регрессионной модели} Линейная регрессионная модель зависимости $Y$ от $X$ имеет вид: $$ Y = \beta_1 + \beta_2 X + \epsilon, $$ где: - $\beta_1$ — параметр сдвига, - $\beta_2$ — параметр масштаба, - $\epsilon$ — случайная ошибка. \textbf{Построение МНК-оценок параметров} Метод наименьших квадратов (МНК) используется для нахождения оценок $\hat{\beta_1}$ и $\hat{\beta_2}$, которые минимизируют сумму квадратов остатков. $\beta_1 = 15.5869$ $\beta_2 = -0.2522$ $R^2$ линейной модели: 0.0144 \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task1_2.png} \end{figure} \textbf{Распределение точек относительно линии} Точки разбросаны, линия не отражает тренд, что говорит о плохом соответствии. \textbf{Наклон линии}: Линия близка к горизонтальной, зависимость слабая. Таким образом, Между $X$ и $Y$ нет линейной зависимости. Линейная модель не подходит для описания данных. \newpage \subsection{Пункт b} \textbf{Формулировка полиномиальной регрессионной модели} Полиномиальная регрессионная модель зависимости $Y$ от $X$ имеет вид: $$ Y = \beta_1 + \beta_2 X + \beta_3 X^2 + \epsilon, $$ где: \begin{itemize} \item $\beta_1$ — параметр сдвига, \item $\beta_2$ — линейный коэффициент при $X$, \item $\beta_3$ — квадратичный коэффициент при $X^2$, \item $\epsilon$ — случайная ошибка \end{itemize} \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task1_3.png} \end{figure} Полиномиальная модель: $\beta_1 = 16.8727$ $\beta_2 = -1.1208$ $\beta_3 = 0.1296$ $R^2$ полиномиальной модели: 0.0240 \textbf{Распределение точек относительно линии}: Точки разбросаны, линия не отражает тренд, что говорит о плохом соответствии. \textbf{Низкий R²} означает, что квадратичная модель плохо описывает связь между $X$ и $Y$. \textbf{Результаты указывают на то, что квадратичная модель не подходит для описания данных.} \newpage \subsection{Пункт c} \begin{figure}[h!] \centering \includegraphics[width=0.95\linewidth]{img/task1_4.png} \end{figure} \begin{figure}[h!] \centering \includegraphics[width=0.9\linewidth]{img/task1_5.png} \end{figure} \newpage \textbf{Проверка нормальности с помощью критерия $\chi^2$} Этапы: \begin{enumerate} \item Гипотезы: \begin{itemize} \item $H_0$: Остатки имеют нормальное распределение. \item $H_1$: Остатки не имеют нормального распределения. \end{itemize} \item Разделить данные на интервалы (бины): Используем те же интервалы, что и в гистограмме. \item Рассчитать наблюдаемые ($O_i$) и ожидаемые ($E_i$) частоты: \begin{itemize} \item $E_i = N \cdot P$ (для $i$-го интервала), где $P$ — вероятность из нормального распределения $N(\mu, \sigma^2)$. \end{itemize} \item Вычислить статистику $\chi^2$: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}. $$ \item Сравнить с критическим значением $\chi^2$: Если $\chi^2 > \chi^2_{\text{крит}}$, отвергаем $H_0$. \end{enumerate} Хи-квадрат статистика: 2.7737 Критическое значение: 13.3882 p-value: 0.7348 Не отвергаем $H_0$: распределение нормальное \textbf{Визуально:} Остатки близки к нормальному распределению. \textbf{Статистически:} Критерий $\chi^2$ не выявил значимых отклонений от нормальности на уровне $\alpha=0.02$. Предположение о нормальности ошибок выполняется. \subsection{Пункт d} Частные интервалы строятся для каждого параметра отдельно, используя t-распределение. \textbf{Формула:} $$ \hat{\beta_j} \pm t_{1-\alpha/2, n-p} \cdot SE(\hat{\beta_j}), $$ где: \begin{itemize} \item $\hat{\beta_j}$ - оценка параметра, \item $SE(\hat{\beta_j})$ - стандартная ошибка параметра, \item $t_{1-\alpha/2}$ - критическое значение t-распределения, \item $n$ - число наблюдений, \item $p$ - число параметров модели (для квадратичной модели $p = 3$). \end{itemize} Доверительные интервалы (уровень 0.98): \begin{itemize} \item Доверительный интервал для $\beta_2$ (98.0\%): [-4.2930, 2.0514] \item Доверительный интервал для $\beta_3$ (98.0\%): [-0.3310, 0.5902] \end{itemize} \textbf{Совместные доверительные интервалы} Совместные интервалы учитывают корреляцию между оценками параметров. Используем метод Бонферрони или F-распределение. \textbf{Метод Бонферрони} Формула: $$ \hat{\beta_j} \pm t_{1-\alpha/(2k),n-p} \cdot SE(\hat{\beta_j}), $$ где $k=2$ (число параметров $\beta_2$ и $\beta_3$). \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task1_6.png} \end{figure} Ковариационная матрица для $\beta_2$ и $\beta_3$: \begin{verbatim} X X2 X 1.734960 -0.245172 X2 -0.245172 0.036575 \end{verbatim} Совместные интервалы (Бонферрони): \begin{itemize} \item $\beta_2$: [-4.657, 2.415] \item $\beta_3$: [-0.384, 0.643] \end{itemize} \textbf{Метод F-распределения} Формула: $$ (\hat{\beta} - \beta)^T \cdot Cov(\hat{\beta})^{-1} \cdot (\hat{\beta} - \beta) \leq F_{1-\alpha, 2, n-p}, $$ где $F_{1-\alpha, 2, n-p}$ - критическое значение F-распределения. Полная ковариационная матрица: \begin{verbatim} const X X2 const 4.7543 -2.7403 0.3629 X -2.7403 1.7350 -0.2452 X2 0.3629 -0.2452 0.0366 \end{verbatim} Вектор оценок параметров [$\beta_2$, $\beta_3$]: [-1.120772, 0.129577] \subsection{Пункт e} \textbf{Гипотеза линейности} \begin{itemize} \item $H_0$: Зависимость $Y$ от $X$ линейна ($\beta_3 = 0$). \item $H_1$: Зависимость нелинейна ($\beta_3 \neq 0$). \end{itemize} \textbf{Гипотеза независимости} \begin{itemize} \item $H_0$: $Y$ не зависит от $X$ линейна ($\beta_2 = \beta_3 = 0$). \item $H_1$: $Y$ зависит от $X$ линейна (хотя бы один из $\beta_2, \beta_3 \neq 0$). \end{itemize} \textbf{Проверка гипотезы линейности ($H_0: \beta_3 = 0$):} \begin{itemize} \item t-статистика: 0.6775 \item p-значение: 0.5014 \item Нет оснований отвергать гипотезу о линейности (p > 0.02). \end{itemize} \textbf{Проверка гипотезы независимости ($H_0: \beta_2 = 0$):} \begin{itemize} \item t-статистика: -0.8509 \item p-значение: 0.3991 \item Нет оснований отвергать гипотезу о независимости (p > 0.02). \end{itemize} \newpage \subsection{Пункт f} Сравнение моделей по AIC и BIC: \begin{verbatim} Модель AIC BIC Линейная 232.83 236.66 Квадратичная 234.35 240.08 \end{verbatim} \textbf{AIC/BIC} линейной модели меньше, она лучше описывает данные. \subsection{Пункт g} \textbf{Характер зависимости $Y$ от $X$} \begin{itemize} \item \textbf{Линейная модель:} $$ Y = 15.59 - 0.25X,\ R^2 = 0.014. $$ \begin{itemize} \item Крайне низкий $R^2$ (1.4\%) указывает на отсутствие линейной зависимости. \item Коэффициент $\beta_2 = -0.25$ статистически незначим (доверительный интервал [-4.29, 2.05] включает ноль). \end{itemize} \item \textbf{Квадратичная модель:} $$ Y = 16.87 - 1.12X + 0.13X^2,\ R^2 = 0.024. $$ \begin{itemize} \item $R^2 = 2.4\%$ показывает, что модель объясняет лишь незначительную часть вариации. \item Коэффициенты: \begin{itemize} \item $\beta_2 = -1.12$ (линейный член): интервал [-4.29, 2.05] включает ноль. \item $\beta_3 = 0.13$ (квадратичный член): интервал [-0.33, 0.59] включает ноль. \end{itemize} \end{itemize} \end{itemize} \textbf{Проверка гипотез}\\ Остатки близки к нормальному распределению. Критерий $\chi^2$ не выявил значимых отклонений от нормальности на уровне $\alpha=0.02$. \textit{Предположение о нормальности ошибок выполняется.} \textbf{AIC/BIC} \begin{center} \begin{tabular}{|l|c|c|} \hline Модель & AIC & BIC \\ \hline Линейная & 232.83 & 236.66 \\ \hline Квадратичная & 234.35 & 240.08 \\ \hline \end{tabular} \end{center} \begin{itemize} \item \textbf{Линейная модель} имеет более низкие AIC/BIC, чем квадратичная. \end{itemize} \textbf{Аномалии в результатах} \begin{itemize} \item \textbf{Парадокс низкого $R^2$:} \begin{itemize} \item Обе модели объясняют менее 3\% вариации, что ставит под сомнение их практическую применимость. \end{itemize} \end{itemize} \textbf{Итоговый вывод} \begin{itemize} \item \textbf{Отсутствие значимой связи:} Ни линейная, ни квадратичная модели не демонстрируют статистически значимой зависимости $Y$ от $X$ на уровне $\alpha=0.02$. \item \textbf{Рекомендации:} \begin{itemize} \item Проверить данные на наличие выбросов или ошибок. \item Рассмотреть другие предикторы или преобразования. \item Увеличить объем данных для повышения надежности тестов. \end{itemize} \end{itemize} \newpage \section{Задание 2} \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task2.png} \end{figure} \subsection{Пункт a} \textbf{1. Формулировка модели двухфакторного дисперсионного анализа} Модель с взаимодействием факторов: $$ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + \epsilon_{ijk}, $$ где: \begin{itemize} \item $Y_{ijk}$ — наблюдаемое значение переменной $Y$ для $i$-го уровня фактора $A$, $j$-го уровня фактора $B$, $k$-го повторения, \item $\mu$ — общее среднее, \item $\alpha_i$ — эффект $i$-го уровня фактора $A$, \item $\beta_j$ — эффект $j$-го уровня фактора $B$, \item $(\alpha \beta)_{ij}$ — эффект взаимодействия факторов $A$ и $B$, \item $\epsilon_{ijk} \sim N(0, \sigma^2)$ — случайная ошибка. \end{itemize} \newpage \textbf{2. Построение МНК-оценок параметров} Оценки параметров полной модели: \begin{verbatim} Intercept 11.998333 C(A)[T.2] 2.440000 C(B)[T.2] -2.586667 C(B)[T.3] 4.146667 C(B)[T.4] -0.345000 C(A)[T.2]:C(B)[T.2] 10.131667 C(A)[T.2]:C(B)[T.3] 1.561667 C(A)[T.2]:C(B)[T.4] 3.795000 \end{verbatim} \textbf{3. Несмещенная оценка дисперсии} Несмещенная оценка дисперсии ошибок: $$ \hat{\sigma}^2 = \frac{SS_{\text{res}}}{df_{\text{res}}} = 0.757, $$ где: \begin{itemize} \item $SS_{\text{res}}$ — сумма квадратов остатков, \item $df_{\text{res}} = n - p$ — степени свободы ($n$ — число наблюдений, $p$ — число параметров). \end{itemize} \subsection{Пункт b} Сводная таблица средних значений Y: \begin{verbatim} B 1 2 3 4 A 1 11.998333 9.411667 16.145000 11.653333 2 14.438333 21.983333 20.146667 17.888333 \end{verbatim} \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task2_1.png} \end{figure} \textbf{Визуальная проверка аддитивности:} \begin{itemize} \item Пересечение линий: График зависимости $Y$ от $A$ при фиксированных $B$ показывает, что линии для разных уровней $B$ пересекаются, особенно при $B=4$. Это указывает на наличие взаимодействия между факторами. \item Следствия: Взаимодействие факторов может означать, что влияние одного фактора на зависимую переменную $Y$ зависит от другого фактора. \end{itemize} \newpage \subsection{Пункт c} \begin{figure}[h!] \centering \includegraphics[width=1\linewidth]{img/task2_2.png} \end{figure} \begin{figure}[h!] \centering \includegraphics[width=0.8\linewidth]{img/task2_3.png} \end{figure} \textbf{Тест Шапиро-Уилка:} p-value = 0.949 \textbf{Не отвергаем $H_0$: остатки нормальны.} \textbf{Результаты:} \begin{itemize} \item Гистограмма: Распределение остатков близко к нормальному, совпадает с наложенной кривой $N(0, \sigma^2)$. \item Q-Q график: Точки лежат вдоль линии $y=x$, что подтверждает нормальность. \item Тест Шапиро-Уилка: гипотеза о нормальности не отвергается. \end{itemize} \subsection{Пункт d} Таблица ANOVA: \begin{verbatim} df sum_sq mean_sq F PR(>F) C(A) 1.0 478.108752 478.108752 631.694471 4.061068e-26 C(B) 3.0 153.241356 51.080452 67.489330 1.051893e-15 C(A):C(B) 3.0 178.558140 59.519380 78.639144 8.022881e-17 Residual 40.0 30.274683 0.756867 NaN NaN \end{verbatim} \textbf{Результаты ANOVA} \begin{itemize} \item Фактор A: $$ F = 631.69,\ p\text{-value} < 0.001 \ \rightarrow \ \text{значимо влияет на } Y. $$ \item Фактор B: $$ F = 67.49,\ p\text{-value} < 0.001 \ \rightarrow \ \text{значимо влияет на } Y. $$ \item Взаимодействие $A \times B$: $$ F = 78.64,\ p\text{-value} < 0.001 \ \rightarrow \ \text{значимо влияет на } Y. $$ \item Вывод: На уровне значимости $\alpha=0.02$ все факторы (A, B) и их взаимодействие \textbf{значимо} ($p < 0.02$). Это означает, что влияние фактора A на Y зависит от уровня фактора B, и наоборот. \end{itemize} \subsection{Пункт e} Для выбора оптимальной модели используются критерии: \begin{itemize} \item AIC оценивает баланс между качеством подгонки модели и её сложностью, накладывая штраф за избыточное количество параметров. \item BIC работает аналогично AIC, но применяет более строгий штраф за сложность, особенно при больших объемах данных. \end{itemize} Сравниваем две модели: \begin{enumerate} \item Полная модель (с взаимодействием): $$ Y \sim A + b + A : B. $$ \item Аддитивная модель (без взаимодействия): $$ Y \sim A + B. $$ \end{enumerate} \begin{verbatim} Модель AIC BIC Полная 130.10 145.07 Аддитивная 216.79 226.15 \end{verbatim} \textbf{Вывод о сравнении моделей} \begin{itemize} \item \textbf{Результаты AIC и BIC:} \begin{itemize} \item Полная модель имеет AIC = 130.10, в то время как аддитивная модель имеет AIC = 216.79. Это указывает на значительное преимущество полной модели. \item Полная модель также имеет BIC = 145.07, а аддитивная модель — BIC = 226.15. Разница подтверждает выбор полной модели. \end{itemize} \item \textbf{Заключение:} \begin{itemize} \item Полная модель \textbf{предпочтительнее}, так как она лучше соответствует данным, что подтверждается меньшими значениями AIC и BIC. \item Аддитивная модель не учитывает взаимодействие факторов. \end{itemize} \end{itemize} \subsection{Пункт f} \textbf{1. Основные эффекты факторов A и B} \begin{itemize} \item \textbf{Фактор A:} Оказал сильное статистически значимое влияние на $Y$ ($F=631.69, p<0.001$). \item \textbf{Фактор B:} Также значимо влияет на $Y$ ($F=67.49, p<0.001$). \end{itemize} \textbf{2. Взаимодействие факторов $A \times B$} \begin{itemize} \item \textbf{Статистическая значимость:} Взаимодействие значимо ($F=78.64, p<0.001$). \item \textbf{Визуальное подтверждение:} График зависимости $Y$ от $A$ при фиксированных $B$ показывает пересечение линий (особенно для $B=4$), что указывает на неаддитивность эффектов. \end{itemize} \textbf{3. Выбор оптимальной модели} AIC/BIC: \begin{tabularx}{\textwidth}{|c|X|X|} \hline Модель & AIC & BIC \\ \hline Полная (с взаимодействием) & 130.10 & 145.07 \\ \hline Аддитивная & 216.79 & 226.15 \\ \hline \end{tabularx} Разница $\Delta AIC = 86.69$ и $\Delta BIC = 81.08$ явно указывает на преимущество полной модели. Аддитивная модель не учитывает взаимодействие, что приводит к потере информации. \textbf{4. Нормальность остатков} \begin{itemize} \item Тест Шапиро-Уилка: $$p\text{-value} = 0.949 \implies \text{гипотеза о нормальности остатков не отвергается}.$$ \item Графическая проверка: Гистограмма остатков близка к нормальной форме. \item Q-Q график показывает совпадение точек с линией $y = x$. \end{itemize} \textbf{Рекомендации:} Для прогнозирования $Y$ необходимо учитывать взаимодействие $A \times B$, так как его игнорирование приведет к систематической ошибке. \textbf{Итоговый вывод} \begin{enumerate} \item Полная модель с взаимодействием предпочтительна по критериям AIC/BIC и объясняет данные лучше аддитивной. \item Нормальность остатков подтверждена тестами и графиками. \end{enumerate} \textbf{Рекомендации:} \begin{itemize} \item Проверить данные на наличие выбросов для уровня $B=4$. \item Использовать полную модель для прогнозирования и анализа эффектов. \end{itemize} \end{document}