Презентация

This commit is contained in:
2026-04-04 16:49:36 +03:00
parent abb4b31e60
commit 082fcf8f34
3 changed files with 297 additions and 0 deletions

5
presentation/.gitignore vendored Normal file
View File

@@ -0,0 +1,5 @@
*
!**/
!.gitignore
!*.tex

View File

@@ -0,0 +1,273 @@
\documentclass[aspectratio=169]{beamer}
\usepackage[T2A]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[russian]{babel}
\usepackage{booktabs}
\usepackage{graphicx}
\usepackage{amsmath}
\usetheme{Madrid}
\usecolortheme{default}
\setbeamertemplate{navigation symbols}{}
\setbeamertemplate{footline}[frame number]
\title{Подбор оптимальной конфигурации модульной системы автоматического протоколирования совещаний с помощью генетических алгоритмов}
\author{Тищенко А.\,А.}
\institute{СПбПУ, ИКНиКБ, ВШ ТИИИ\\гр. 5130201/20101\\[6pt]Руководитель: проф., д.т.н. Большаков А.\,А.}
\date{2026}
\begin{document}
% ===== 1. Title =====
\begin{frame}
\titlepage
\end{frame}
% ===== 2. Introduction =====
\begin{frame}{Автоматическое протоколирование совещаний}
\begin{itemize}
\item Протоколирование совещаний --- фиксация решений и договорённостей
\item Автоматизация стала возможна благодаря развитию моделей ASR, диаризации и LLM
\end{itemize}
\vspace{0.4cm}
\textbf{Три этапа пайплайна:}
\begin{enumerate}
\item \textbf{Транскрибация} --- преобразование аудио в текст
\item \textbf{Диаризация} --- определение говорящих
\item Суммаризация --- формирование протокола (не рассматривается)
\end{enumerate}
\vspace{0.4cm}
В данной работе рассматриваются \textbf{этапы~1 и~2}: оптимизация выбора моделей и их параметров.
\end{frame}
% ===== 3. Problem statement =====
\begin{frame}{Постановка задачи}
\textbf{Цель:} найти конфигурацию $\mathbf{x}^*$, минимизирующую:
\[
f(\mathbf{x}) = 0{,}4 \cdot \text{WER}(\mathbf{x}) + 0{,}4 \cdot \text{DER}(\mathbf{x}) + 0{,}2 \cdot T(\mathbf{x})
\]
\begin{itemize}
\item WER --- ошибка транскрибации (\%)
\item DER --- ошибка диаризации (\%)
\item $T$ --- нормализованное время инференса
\end{itemize}
\vspace{0.3cm}
\textbf{Аппаратные ограничения:}
\begin{itemize}
\item GPU Tesla T4 (16~ГБ VRAM), 16~ГБ ОЗУ
\item Вычислительный бюджет: $\sim$10 часов
\end{itemize}
\end{frame}
% ===== 4. Configuration space =====
\begin{frame}{Пространство конфигураций}
\small
\begin{table}
\centering
\begin{tabular}{l l l}
\toprule
\textbf{Параметр} & \textbf{Тип} & \textbf{Значения} \\
\midrule
Модель транскрибации & категориальный & 5 моделей \\
beam\_size & дискретный & \{1, 3, 5, 7, 10\} \\
vad\_threshold & дискретный & \{0.3, 0.4, 0.5, 0.6, 0.7\} \\
Модель диаризации & категориальный & 3 модели \\
min\_speech\_duration & дискретный & \{0.25, 0.5, 0.75, 1.0, 1.5\}~с \\
clustering\_threshold & дискретный & \{0.3, 0.45, 0.6, 0.75, 0.9\} \\
\bottomrule
\end{tabular}
\end{table}
\vspace{0.2cm}
\begin{columns}
\column{0.48\textwidth}
\textbf{Транскрибация (5 моделей):}
\begin{itemize}
\item Whisper large-v3 / medium
\item Faster-Whisper large-v3
\item GigaAM-CTC / RNN-T
\end{itemize}
\column{0.48\textwidth}
\textbf{Диаризация (3 модели):}
\begin{itemize}
\item pyannote 3.1
\item pyannote Community-1
\item Sortformer (NeMo)
\end{itemize}
\end{columns}
\vspace{0.3cm}
\centering
Всего конфигураций: $5 \times 5 \times 5 \times 3 \times 5 \times 5 = \mathbf{9375}$
\end{frame}
% ===== 5. Computational constraints =====
\begin{frame}{Вычислительные ограничения}
\begin{itemize}
\item Полный перебор 9375 конфигураций $\times$ 5~мин $= \sim$\textbf{780 часов}
\item Необходимы эвристические методы оптимизации
\end{itemize}
\vspace{0.3cm}
\textbf{Сокращение затрат:}
\begin{enumerate}
\item 1 вариант датасета (raw) --- сравнение конфигураций, а не устойчивости к шуму
\item Половина датасета ($\sim$45~мин аудио) --- $\sim$5~мин на оценку
\item Суммаризация исключена: LLM-инференс $\sim$20--40~мин/оценку
\end{enumerate}
\vspace{0.3cm}
Итог: $\sim$5~мин на одну оценку конфигурации, бюджет 10 часов.
\end{frame}
% ===== 6. GA design =====
\begin{frame}{Генетический алгоритм}
\textbf{Хромосома:} вектор из 6 генов (индексы допустимых значений)
\vspace{0.3cm}
\begin{columns}
\column{0.48\textwidth}
\textbf{Операторы:}
\begin{itemize}
\item Турнирная селекция ($k=3$)
\item Равномерный кроссовер
\item Мутация: $p=0{,}15$ на ген\\(70\% --- соседнее значение,\\30\% --- случайное)
\item Элитизм: 2 лучшие особи
\end{itemize}
\column{0.48\textwidth}
\textbf{Параметры:}
\begin{itemize}
\item Популяция: 15 особей
\item Поколений: 25
\item Веса: $\alpha=0{,}4$, $\beta=0{,}4$, $\gamma=0{,}2$
\end{itemize}
\end{columns}
\end{frame}
% ===== 7. Optimizations =====
\begin{frame}{Оптимизации вычислений}
\textbf{1. Модульное кэширование}
\begin{itemize}
\item Транскрибация и диаризация --- \textbf{независимые} модули
\item Кэш транскрибации: ключ = (модель, beam\_size, vad\_threshold)
\item Кэш диаризации: ключ = (модель, min\_speech\_dur, clustering\_thr, vad\_thr)
\item Изменение параметров одного модуля не требует пересчёта другого
\end{itemize}
\vspace{0.4cm}
\textbf{2. Пакетное планирование по моделям}
\begin{itemize}
\item Загрузка модели в GPU: 30--60~с для крупных моделей
\item Конфигурации группируются по модели перед запуском
\item Модель загружается \textbf{один раз} для всего пакета
\end{itemize}
\end{frame}
% ===== 8. Convergence =====
\begin{frame}{Результаты: сходимость}
\begin{columns}
\column{0.55\textwidth}
\includegraphics[width=\textwidth]{../report/img/convergence.png}
\column{0.42\textwidth}
\begin{itemize}
\item Быстрое улучшение в поколениях 0--4
\item Плато после 10-го поколения
\item Среднее сходится к лучшему --- популяция концентрируется в области оптимума
\end{itemize}
\end{columns}
\end{frame}
% ===== 9. Best configurations =====
\begin{frame}{Результаты: лучшие конфигурации}
\small
\begin{table}
\centering
\begin{tabular}{c l l c c c}
\toprule
\textbf{\#} & \textbf{Транскрибация} & \textbf{Диаризация} & \textbf{WER} & \textbf{DER} & $f(\mathbf{x})$ \\
\midrule
1 & GigaAM-RNN-T & Sortformer & 5.32\% & 19.07\% & 11.25 \\
2 & GigaAM-CTC & Sortformer & 6.54\% & 19.07\% & 11.30 \\
3 & GigaAM-RNN-T & pyannote C.-1 & 5.32\% & 20.50\% & 11.60 \\
4 & GigaAM-CTC & pyannote C.-1 & 6.54\% & 20.50\% & 11.66 \\
5 & F.-Whisper l.-v3 & Sortformer & 7.59\% & 19.01\% & 11.84 \\
\bottomrule
\end{tabular}
\end{table}
\vspace{0.3cm}
\textbf{Лучшая:} GigaAM-RNN-T + Sortformer\\
beam\_size=1, vad\_thr=0.5, min\_speech\_dur=0.5~с, clustering\_thr=0.6
\end{frame}
% ===== 10. WER vs DER scatter =====
\begin{frame}{Результаты: распределение конфигураций}
\centering
\includegraphics[width=0.56\textwidth]{../report/img/wer_der_scatter.png}
\small Алгоритм сконцентрировал поиск в области малых WER и DER.
\end{frame}
% ===== 11. Model frequency =====
\begin{frame}{Результаты: частота моделей в топ-20}
\centering
\includegraphics[width=0.82\textwidth]{../report/img/model_frequency.png}
\vspace{0.2cm}
\small GigaAM-RNN-T доминирует в транскрибации, Sortformer --- в диаризации.
\end{frame}
% ===== 12. Comparison =====
\begin{frame}{Сравнение стратегий поиска}
\begin{table}
\centering
\begin{tabular}{l c c c c}
\toprule
\textbf{Стратегия} & \textbf{Оценок} & $f(\mathbf{x}^*)$ & \textbf{WER} & \textbf{DER} \\
\midrule
Полный перебор & 9375 & --- & --- & --- \\
Случ. поиск (15) & 15 & 13.03 & 6.99\% & 23.35\% \\
Случ. поиск (93) & 93 & 11.81 & 5.57\% & 20.27\% \\
Случ. поиск (375) & 375 & 11.32 & 5.57\% & 19.15\% \\
\textbf{ГА (25 пок.)} & \textbf{93 мод.} & \textbf{11.25} & \textbf{5.32\%} & \textbf{19.07\%} \\
\bottomrule
\end{tabular}
\end{table}
\vspace{0.3cm}
\begin{itemize}
\item ГА с 93 модульными вычислениями лучше случайного поиска с 375 оценками
\item $93 / 9375 \approx 1\%$ пространства поиска
\item Оценочное время: $\sim$4 часа вместо 780 часов --- \textbf{ускорение $>$100$\times$}
\end{itemize}
\end{frame}
% ===== 13. Conclusion =====
\begin{frame}{Заключение}
\begin{itemize}
\item Разработан ГА для оптимизации конфигурации модулей транскрибации и диаризации
\item Модульное кэширование сокращает вычисления в 2.6 раза
\item Пакетное планирование устраняет избыточные загрузки моделей
\item Сходимость за 4--10 поколений (93 модульных вычисления)
\item Лучшая конфигурация: WER~=~5.32\%, DER~=~19.07\%
\item Ускорение $>$100$\times$ по сравнению с полным перебором
\end{itemize}
\vspace{0.4cm}
\textbf{Дальнейшая работа:}
\begin{itemize}
\item Расширение на этап суммаризации (дипломная работа)
\item Апробация на полном датасете
\end{itemize}
\end{frame}
\end{document}