\documentclass[aspectratio=169]{beamer} \usepackage[T2A]{fontenc} \usepackage[utf8]{inputenc} \usepackage[russian]{babel} \usepackage{booktabs} \usepackage{graphicx} \usepackage{amsmath} \usetheme{Madrid} \usecolortheme{default} \setbeamertemplate{navigation symbols}{} \setbeamertemplate{footline}[frame number] \title{Подбор оптимальной конфигурации модульной системы автоматического протоколирования совещаний с помощью генетических алгоритмов} \author{Тищенко А.\,А.} \institute{СПбПУ, ИКНиКБ, ВШ ТИИИ\\гр. 5130201/20101\\[6pt]Руководитель: проф., д.т.н. Большаков А.\,А.} \date{2026} \begin{document} % ===== 1. Title ===== \begin{frame} \titlepage \end{frame} % ===== 2. Introduction ===== \begin{frame}{Автоматическое протоколирование совещаний} \begin{itemize} \item Протоколирование совещаний --- фиксация решений и договорённостей \item Автоматизация стала возможна благодаря развитию моделей ASR, диаризации и LLM \end{itemize} \vspace{0.4cm} \textbf{Три этапа пайплайна:} \begin{enumerate} \item \textbf{Транскрибация} --- преобразование аудио в текст \item \textbf{Диаризация} --- определение говорящих \item Суммаризация --- формирование протокола (не рассматривается) \end{enumerate} \vspace{0.4cm} В данной работе рассматриваются \textbf{этапы~1 и~2}: оптимизация выбора моделей и их параметров. \end{frame} % ===== 3. Problem statement ===== \begin{frame}{Постановка задачи} \textbf{Цель:} найти конфигурацию $\mathbf{x}^*$, минимизирующую: \[ f(\mathbf{x}) = 0{,}4 \cdot \text{WER}(\mathbf{x}) + 0{,}4 \cdot \text{DER}(\mathbf{x}) + 0{,}2 \cdot T(\mathbf{x}) \] \begin{itemize} \item WER --- ошибка транскрибации (\%) \item DER --- ошибка диаризации (\%) \item $T$ --- нормализованное время инференса \end{itemize} \vspace{0.3cm} \textbf{Аппаратные ограничения:} \begin{itemize} \item GPU Tesla T4 (16~ГБ VRAM), 16~ГБ ОЗУ \item Вычислительный бюджет: $\sim$10 часов \end{itemize} \end{frame} % ===== 4. Configuration space ===== \begin{frame}{Пространство конфигураций} \small \begin{table} \centering \begin{tabular}{l l l} \toprule \textbf{Параметр} & \textbf{Тип} & \textbf{Значения} \\ \midrule Модель транскрибации & категориальный & 5 моделей \\ beam\_size & дискретный & \{1, 3, 5, 7, 10\} \\ vad\_threshold & дискретный & \{0.3, 0.4, 0.5, 0.6, 0.7\} \\ Модель диаризации & категориальный & 3 модели \\ min\_speech\_duration & дискретный & \{0.25, 0.5, 0.75, 1.0, 1.5\}~с \\ clustering\_threshold & дискретный & \{0.3, 0.45, 0.6, 0.75, 0.9\} \\ \bottomrule \end{tabular} \end{table} \vspace{0.2cm} \begin{columns} \column{0.48\textwidth} \textbf{Транскрибация (5 моделей):} \begin{itemize} \item Whisper large-v3 / medium \item Faster-Whisper large-v3 \item GigaAM-CTC / RNN-T \end{itemize} \column{0.48\textwidth} \textbf{Диаризация (3 модели):} \begin{itemize} \item pyannote 3.1 \item pyannote Community-1 \item Sortformer (NeMo) \end{itemize} \end{columns} \vspace{0.3cm} \centering Всего конфигураций: $5 \times 5 \times 5 \times 3 \times 5 \times 5 = \mathbf{9375}$ \end{frame} % ===== 5. Computational constraints ===== \begin{frame}{Вычислительные ограничения} \begin{itemize} \item Полный перебор 9375 конфигураций $\times$ 5~мин $= \sim$\textbf{780 часов} \item Необходимы эвристические методы оптимизации \end{itemize} \vspace{0.3cm} \textbf{Сокращение затрат:} \begin{enumerate} \item 1 вариант датасета (raw) --- сравнение конфигураций, а не устойчивости к шуму \item Половина датасета ($\sim$45~мин аудио) --- $\sim$5~мин на оценку \item Суммаризация исключена: LLM-инференс $\sim$20--40~мин/оценку \end{enumerate} \vspace{0.3cm} Итог: $\sim$5~мин на одну оценку конфигурации, бюджет 10 часов. \end{frame} % ===== 6. GA design ===== \begin{frame}{Генетический алгоритм} \textbf{Хромосома:} вектор из 6 генов (индексы допустимых значений) \vspace{0.3cm} \begin{columns} \column{0.48\textwidth} \textbf{Операторы:} \begin{itemize} \item Турнирная селекция ($k=3$) \item Равномерный кроссовер \item Мутация: $p=0{,}15$ на ген\\(70\% --- соседнее значение,\\30\% --- случайное) \item Элитизм: 2 лучшие особи \end{itemize} \column{0.48\textwidth} \textbf{Параметры:} \begin{itemize} \item Популяция: 15 особей \item Поколений: 25 \item Веса: $\alpha=0{,}4$, $\beta=0{,}4$, $\gamma=0{,}2$ \end{itemize} \end{columns} \end{frame} % ===== 7. Optimizations ===== \begin{frame}{Оптимизации вычислений} \textbf{1. Модульное кэширование} \begin{itemize} \item Транскрибация и диаризация --- \textbf{независимые} модули \item Кэш транскрибации: ключ = (модель, beam\_size, vad\_threshold) \item Кэш диаризации: ключ = (модель, min\_speech\_dur, clustering\_thr, vad\_thr) \item Изменение параметров одного модуля не требует пересчёта другого \end{itemize} \vspace{0.4cm} \textbf{2. Пакетное планирование по моделям} \begin{itemize} \item Загрузка модели в GPU: 30--60~с для крупных моделей \item Конфигурации группируются по модели перед запуском \item Модель загружается \textbf{один раз} для всего пакета \end{itemize} \end{frame} % ===== 8. Convergence ===== \begin{frame}{Результаты: сходимость} \begin{columns} \column{0.55\textwidth} \includegraphics[width=\textwidth]{../report/img/convergence.png} \column{0.42\textwidth} \begin{itemize} \item Быстрое улучшение в поколениях 0--4 \item Плато после 10-го поколения \item Среднее сходится к лучшему --- популяция концентрируется в области оптимума \end{itemize} \end{columns} \end{frame} % ===== 9. Best configurations ===== \begin{frame}{Результаты: лучшие конфигурации} \footnotesize Для каждой уникальной комбинации моделей транскрибации и диаризации --- лучшая найденная конфигурация параметров. \vspace{0.5em} \small \begin{table} \centering \begin{tabular}{c l l c c c c} \toprule \textbf{\#} & \textbf{Транскр.} & \textbf{Диариз.} & \textbf{WER} & \textbf{DER} & \textbf{T} & $f(\mathbf{x})$ \\ \midrule 1 & GigaAM-RNN-T & Sortformer & 5.32\% & 19.07\% & 7.5' & 11.25 \\ 2 & GigaAM-CTC & Sortformer & 6.54\% & 19.07\% & 5.3' & 11.30 \\ 3 & GigaAM-RNN-T & pya. C.-1 & 5.32\% & 20.50\% & 6.4' & 11.60 \\ 4 & GigaAM-CTC & pya. C.-1 & 6.54\% & 20.50\% & 4.2' & 11.66 \\ 5 & F.-Whisper & Sortformer & 7.59\% & 19.01\% & 6.0' & 11.84 \\ \bottomrule \end{tabular} \end{table} \vspace{0.3cm} \textbf{Лучшая:} GigaAM-RNN-T + Sortformer\\ beam\_size=1, vad\_thr=0.5, min\_speech\_dur=0.5~с, clustering\_thr=0.6 \end{frame} % ===== 10. WER vs DER scatter ===== \begin{frame}{Результаты: распределение конфигураций} \centering \includegraphics[width=0.56\textwidth]{../report/img/wer_der_scatter.png} \small Алгоритм сконцентрировал поиск в области малых WER и DER. \end{frame} % ===== 11. Model frequency ===== \begin{frame}{Результаты: частота моделей в топ-20} \centering \includegraphics[width=0.82\textwidth]{../report/img/model_frequency.png} \vspace{0.2cm} \small GigaAM-RNN-T доминирует в транскрибации, Sortformer --- в диаризации. \end{frame} % ===== 12. Comparison ===== \begin{frame}{Сравнение стратегий поиска} \begin{table} \centering \begin{tabular}{l c c c c} \toprule \textbf{Стратегия} & \textbf{Оценок} & $f(\mathbf{x}^*)$ & \textbf{WER} & \textbf{DER} \\ \midrule Полный перебор & 9375 & --- & --- & --- \\ Случ. поиск (15) & 15 & 13.03 & 6.99\% & 23.35\% \\ Случ. поиск (60) & 60 & 12.20 & 6.54\% & 21.50\% \\ Случ. поиск (120) & 120 & 11.60 & 5.57\% & 19.80\% \\ \textbf{ГА (25 пок.)} & \textbf{93 мод.} & \textbf{11.25} & \textbf{5.32\%} & \textbf{19.07\%} \\ \bottomrule \end{tabular} \end{table} \vspace{0.3cm} \begin{itemize} \item ГА с 93 мод. выч. ($\sim$4~ч) лучше случайного поиска со 120 оценками (10~ч) \item $93 / 9375 \approx 1\%$ пространства поиска \item Оценочное время: $\sim$4 часа вместо 780 часов --- \textbf{ускорение $>$100$\times$} \end{itemize} \end{frame} % ===== 13. Conclusion ===== \begin{frame}{Заключение} \begin{itemize} \item Разработан ГА для оптимизации конфигурации модулей транскрибации и диаризации \item Модульное кэширование сокращает вычисления в 2.6 раза \item Пакетное планирование устраняет избыточные загрузки моделей \item Сходимость за 4--10 поколений (93 модульных вычисления) \item Лучшая конфигурация: WER~=~5.32\%, DER~=~19.07\% \item Ускорение $>$100$\times$ по сравнению с полным перебором \end{itemize} \vspace{0.4cm} \textbf{Дальнейшая работа:} \begin{itemize} \item Расширение на этап суммаризации (дипломная работа) \item Апробация на полном датасете \end{itemize} \end{frame} \end{document}