WikiDer > Стохастический контроль

Stochastic control

Стохастический контроль или же стохастический оптимальный контроль это подполе теория управления который касается существования неопределенности либо в наблюдениях, либо в шуме, который движет эволюцией системы. Разработчик системы предполагает, что в Байесовская вероятность-приводимый способ, что случайный шум с известным распределением вероятностей влияет на эволюцию и наблюдение переменных состояния. Стохастическое управление направлено на разработку временного пути контролируемых переменных, который выполняет желаемую задачу управления с минимальными затратами, определенным каким-либо образом, несмотря на присутствие этого шума.^[1] Контекст может быть либо дискретное время или же непрерывное время.

Эквивалентность определенности

Чрезвычайно хорошо изученная формулировка стохастического управления - это формулировка: линейно-квадратичное гауссовское управление. Здесь модель линейна, целевая функция - это математическое ожидание квадратичной формы, а возмущения чисто аддитивны. Основным результатом для централизованных систем с дискретным временем и только аддитивной неопределенностью является свойство достоверности эквивалентности:^[2] что оптимальное управляющее решение в этом случае такое же, как и при отсутствии аддитивных возмущений. Это свойство применимо ко всем централизованным системам с линейными уравнениями эволюции, квадратичной функцией стоимости и шумом, входящим в модель только аддитивно; предположение о квадратичности позволяет оптимальным законам управления, которые следуют свойству достоверности-эквивалентности, быть линейными функциями наблюдений контроллеров.

Любое отклонение от вышеуказанных предположений - нелинейное уравнение состояния, неквадратичная целевая функция, шум в мультипликативных параметрах модели или децентрализация управления - приводит к тому, что свойство эквивалентности достоверности не выполняется. Например, его неспособность удерживать децентрализованный контроль была продемонстрирована в Контрпример Витсенхаузена.

Дискретное время

В контексте дискретного времени лицо, принимающее решение, наблюдает за переменной состояния, возможно, с шумом наблюдения в каждый период времени. Целью может быть оптимизация суммы ожидаемых значений нелинейной (возможно, квадратичной) целевой функции за все периоды времени от настоящего до последнего рассматриваемого периода или оптимизация значения целевой функции только для последнего периода. . В каждый период времени производятся новые наблюдения, и контрольные переменные должны корректироваться оптимальным образом. Поиск оптимального решения для настоящего времени может потребовать повторения матричное уравнение Риккати назад во времени от прошлого периода к настоящему периоду.

В случае дискретного времени с неопределенностью значений параметров в матрице перехода (дающей влияние текущих значений переменных состояния на их собственную эволюцию) и / или в матрице отклика управления уравнения состояния, но все же с линейным состоянием уравнение и квадратичная целевая функция, уравнение Риккати все еще может быть получено для итерации назад к решению каждого периода, даже если эквивалентность достоверности не применяется.^[2]^{глава 13}^[3] Случай дискретного времени неквадратичной функции потерь, но только аддитивные возмущения, также может быть обработан, хотя и с большим количеством сложностей.^[4]

Пример

Типичная спецификация стохастической линейно-квадратичной задачи дискретного времени состоит в том, чтобы минимизировать^[2]^{:гл. 13;}^[3]^[5]

{ displaystyle { text {E}} _ {1} sum _ {t = 1} ^ {S} [y_ {t} ^ {T} Qy_ {t} + u_ {t} ^ {T} Ru_ { t}]}

где E₁ это ожидаемое значение оператор при условии у₀, надстрочный индекс Т указывает на матрица транспонировать, и S - временной горизонт, подчиненный уравнению состояния

{ displaystyle y_ {t} = A_ {t} y_ {t-1} + B_ {t} u_ {t},}

куда у является п × 1 вектор наблюдаемых переменных состояния, ты это k × 1 вектор управляющих переменных, А_т время т реализация стохастический п × п матрица перехода состояний, B_т время т реализация стохастического п × k матрица контрольных множителей, и Q (п × п) и р (k × k) - известные симметричные положительно определенные матрицы стоимости. Мы предполагаем, что каждый элемент А и B совместно независимо и идентично распределены во времени, поэтому операции с ожидаемым значением не обязательно должны быть временными.

Индукция назад во времени можно использовать для получения оптимального управляющего решения в каждый момент времени,^[2]^{:гл. 13}

{ displaystyle u_ {t} ^ {*} = - [{ text {E}} (B ^ {T} X_ {t} B + R)] ^ {- 1} { text {E}} (B ^ {T} X_ {t} A) y_ {t-1},}

с симметричной положительно определенной матрицей текущих затрат Икс эволюционирует назад во времени из ${ displaystyle X_ {S} = Q}$ в соответствии с

{ displaystyle X_ {t-1} = Q + { text {E}} [A ^ {T} X_ {t} A] - { text {E}} [A ^ {T} X_ {t} B] [{ text {E}} (B ^ {T} X_ {t} B + R)] ^ {- 1} { text {E}} (B ^ {T} X_ {t} A), , }

которое известно как динамическое уравнение Риккати с дискретным временем для этой задачи. Единственная необходимая информация о неизвестных параметрах в А и B матрицы - это ожидаемое значение и дисперсия каждого элемента каждой матрицы и ковариации между элементами одной и той же матрицы и между элементами во всех матрицах.

Оптимальное решение управления не изменяется, если нулевое среднее, i.i.d. аддитивные шоки также появляются в уравнении состояния, пока они не коррелируют с параметрами в А и B матрицы. Но если они так коррелированы, то оптимальное управляющее решение для каждого периода содержит дополнительный аддитивный постоянный вектор. Если в уравнении состояния появляется аддитивный постоянный вектор, то снова решение оптимального управления для каждого периода содержит дополнительный аддитивный постоянный вектор.

Стационарная характеристика Икс (если он существует), актуальный для задачи с бесконечным горизонтом, в которой S стремится к бесконечности, можно найти, повторяя динамическое уравнение для Икс неоднократно, пока не сойдется; тогда Икс характеризуется удалением временных индексов из динамического уравнения.

Непрерывное время

Если модель находится в непрерывном времени, контроллер знает состояние системы в каждый момент времени. Цель состоит в том, чтобы максимизировать интеграл, например, вогнутой функции переменной состояния на горизонте от нулевого времени (настоящего) до конечного времени. Т, или вогнутую функцию переменной состояния в будущем Т. С течением времени постоянно производятся новые наблюдения, а управляющие переменные постоянно корректируются оптимальным образом.

Прогностический контроль стохастической модели

В литературе существует два типа MPC для стохастических систем; Управление с прогнозированием робастной модели и прогнозирующее управление с помощью стохастической модели (SMPC). Робастное управление с прогнозированием модели - это более консервативный метод, который учитывает наихудший сценарий процедуры оптимизации. Однако этот метод, как и другие надежные средства управления, ухудшает общую производительность контроллера и также применим только для систем с ограниченными неопределенностями. Альтернативный метод, SMPC, рассматривает мягкие ограничения, которые ограничивают риск нарушения вероятностным неравенством.^[6]

В финансах

При подходе с непрерывным временем в финансы В контексте, переменная состояния в стохастическом дифференциальном уравнении обычно представляет собой богатство или чистую стоимость активов, а средства контроля - это акции, каждый раз размещаемые в различных активах. Учитывая распределение активов Выбираемые в любой момент времени, определяющими факторами изменения богатства обычно являются стохастическая доходность активов и процентная ставка по безрисковому активу. С 1970-х годов стохастическое управление сильно развилось, особенно в его приложениях к финансам. Роберт Мертон использовал стохастический контроль для изучения оптимальные портфели безопасных и рискованных активов.^[7] Его работа и что из Блэк – Скоулз изменил характер финансы литература. Влиятельные трактовки математических учебников были выполнены Флеминг и Ришель,^[8] и Флемингом и Soner.^[9] Эти методы применялись Stein к финансовый кризис 2007-08 гг..^[10]

Максимизация, скажем, ожидаемого логарифма чистой стоимости на конечную дату Т, подвержена случайным процессам на компонентах богатства.^[11] В этом случае в непрерывном времени Уравнение Ито является основным инструментом анализа. В случае, когда максимизация представляет собой интеграл от вогнутой функции полезности за горизонт (0,Т), используется динамическое программирование. Не существует достоверной эквивалентности, как в более ранней литературе, потому что коэффициенты управляющих переменных, то есть доходность, получаемая от выбранных акций активов, являются стохастическими.

Смотрите также

дальнейшее чтение

Диксит, Авинаш (1991). "Упрощенное рассмотрение теории оптимального регулирования броуновского движения". Журнал экономической динамики и управления. 15 (4): 657–673. Дои:10.1016/0165-1889(91)90037-2.
Юн, Цзюнминь; Чжоу, Сюнь Юй (1999). Стохастические управления: гамильтоновы системы и уравнения HJB. Нью-Йорк: Спрингер. ISBN 0-387-98723-1.

[1] Определение с сайта Answers.com

[Chow-2] а ^б ^c ^d Чау, Грегори П. (1976). Анализ и управление динамическими экономическими системами. Нью-Йорк: Вили. ISBN 0-471-15616-7.

[Turnovsky-3] а ^б Турновский, Стивен (1976). «Оптимальные стратегии стабилизации для стохастических линейных систем: случай коррелированных мультипликативных и аддитивных возмущений». Обзор экономических исследований. 43 (1): 191–94. Дои:10.2307/2296614. JSTOR 2296614.

[4] Митчелл, Дуглас В. (1990). «Управляемый чувствительный к риску контроль на основе приблизительной ожидаемой полезности». Экономическое моделирование. 7 (2): 161–164. Дои:10.1016 / 0264-9993 (90) 90018-У.

[5] Турновский, Стивен (1974). «Свойства устойчивости оптимальной экономической политики». Американский экономический обзор. 64 (1): 136–148. JSTOR 1814888.

[6] Хашемский; Армау (2017). «Стохастический дизайн MPC для двухкомпонентного процесса гранулирования». IEEE Proceedings: 4386–4391. arXiv:1704.04710. Bibcode:2017arXiv170404710H.

[7] Мертон, Роберт (1990). Непрерывное финансирование. Блэквелл.

[8] Fleming, W .; Ришель Р. (1975). Детерминированное и стохастическое оптимальное управление. ISBN 0-387-90155-8.

[9] Fleming, W .; Сонер, М. (2006). Управляемые марковские процессы и вязкостные решения. Springer.

[stein-10] Стейн, Дж. Л. (2012). Стохастическое оптимальное управление и финансовый кризис в США. Springer-Science.

[11] Barreiro-Gomez, J .; Тембине, Х. (2019). «Экономика блокчейн-токенов: игра среднего типа». Доступ IEEE. 7: 64603–64613. Дои:10.1109 / ACCESS.2019.2917517. ISSN 2169-3536.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Navigation