ПОСТАНОВКА ЗАДАЧІ ОПТИМАЛЬНОГО СТОХАСТИЧнОГО КЕРУВАННЯ
1. Загальні положення
Позначатимемо – простір станів, , .
Можливі керування є множиною припустимих керувань , яка у свою чергу є підмножиною простору керувань : , .
Послідовність керуючих функцій , , записана у вигляді
(1),
називається стратегією керування.
Задача оптимального керування системою (1) полягає в пошуку такої послідовності функцій керування , що мінімізує цільовий функціонал системи за кроків. Ця послідовність називається оптимальною стратегією керування.
Визначення. Якщо кількість кроків, на яких досліджується поведінка системи, є скінченною, то задача називається задачею зі скінченним горизонтом рішення. Якщо ж ми розв’язуємо задачу на нескінченному часовому інтервалі (), то горизонт рішення є нескінченним.
Задача оптимального стохастичного керування з дискретним часом випливає із детермінованої задачі, якщо система функціонує за умов випадкових збурень . У цьому випадку функція (1), що визначає стан системи на кожному наступному кроці, залежить від поточного стану , керування і випадкових збурень :
, . (2)
Збурення є елементами деякого ймовірнісного простору (де – простір збурень, – -алгебра підмножин з ) і має розподіл .
2 Критерії якості
Розглянемо спочатку критерії якості, які найчастіше використовуються в детермінованих дискретних задачах керування, а потім перейдемо до стохастичного випадку. Якщо на кожному кроці функціонування системи задана функція , що визначає витрати за один крок керування, то критерій якості руху матиме вигляд
. (3)
Величина , що називається коефіцієнтом дисконтування, визначає внесок витрат за всі попередні кроки на кожному поточному кроці.
Найчастіше критерій (3) використовується в тих випадках, коли необхідно розв’язувати задачі, пов'язані з витратами деяких видів ресурсів. Саме цей функціонал ми будемо використовувати надалі.
Крім критерію (3) розглядаються також критерії, які мінімізують горизонт системи і є аналогом часу руху для неперервних систем. У цьому випадку цільовий функціонал матиме вигляд
.
Також часто в дискретних задачах керування використовуються термінальні функціонали якості
або ,
де – заданий стан системи, – кінцевий стан системи.
Оскільки в задачі оптимального стохастичного керування збурення випадкові, то може бути тільки апріорна інформація про них, наприклад, у вигляді функції розподілу, відомої повністю або частково. У цьому випадку якість процесу керування оцінюється за допомогою формули
,
яка дорівнює математичному сподіванню функції .
3 Види функцій керування стохастичною системою
Задача детермінованого керування відрізняється від свого стохастичного аналога тим, що в першій відсутні неконтрольовані фактори , і еволюція системи однозначно визначається обраним керуванням . Отже, у задачі детермінованого керування для кожного початкового стану можна заздалегідь вибрати послідовність оптимальних керувань , , …, , застосування яких дає оптимальне значення функціонала .
Для стохастичної системи в загальному випадку цього зробити не можна, оскільки система переходить зі стану в стан не тільки під дією керування ; на неї на кожному кроці також впливають випадкові величини . ............