CONTROL ESTOCÁSTICO
La teoría del control estocástico estudia el
control de sistemas dinámicos sujetos a perturbaciones
descritas como estados de procesos estocásticos.
El desarrollo completo de la teoría de control estocástico
debe dar solución a los siguientes problemas:
Deducción de las propiedades estocásticas de variables
de sistemas dinámicos sujetos a perturbaciones estocásticas
(esto es, descritos por procesos estocásticos). Eh el
caso general, las variables del sistema dinámico serán
suma de una función determinista y un proceso estocástico.
Optimización de los parámetros de un sistema con
una estructura predeterminada por un método determinista
pero basado en un desarrollo estocástico, es decir, sujeto
a perturbaciones modelizadas por procesos estocásticos.
Control óptimo de un sistema dinámico en un entorno
estocástico y sujeto a un índice de comportamiento
dado (por ejemplo minimización del valor - esperado de
una forma cuadrática como la considerada en procesos
deterministas).
El resultado principal de la teoría de control óptimo
estocástico (lineal) es el teorema de separación
que nos dice que el control óptimo en presencia de perturbaciones
se obtiene en dos etapas:
1) Estimación óptima del estado del sistema en
presencia de perturbaciones.
2) Realimentación del estado estimado a la entrada del
sistema a controlar, a través de un bloque de control,
como si el sistema funcionara en un entorno determinista (sin
perturbación) y el estado fuera medido exactamente.
El teorema de separación se conoce también con
el nombre de principio de equivalencia certidumbre en el caso
del siguiente problema:
Sea un conjunto de medidas y(k), k = 1,..., N-1, donde:
\( y(k) = D(k)·x(k) + w(k)\qquad (115) \)
y un modelo de sistema dinámico a controlar :
\( x(k+1) = \phi(k)·x(k) + B(k)·u(k) + v(k)\qquad
(116) \)
con:
\( \displaystyle \begin{array}{ll}
E[v(k)] = E[w(k)] = E[x(0)] = 0 & \quad (117) \\
& \\
E\left[\left(
\begin{array}{c}
w(i) \\
v(i) \\
\end{array}
\right)\left(w^T(j)\quad v^T(j)\right)
\right] = \left(
\begin{array}{cc}
W(i) & 0 \\
0 & V(i) \\
\end{array}
\right)\delta(i-j)
& \quad (118) \\
& \\
E[x(0) \quad x^T(0)] = X_o\quad;\quad E[x(0) \quad v^T(i)] =
0 & (119)
\end{array} \)
El problema de control óptimo será encontrar una
ley de control causal que minimice el funcional:
\( \displaystyle \begin{array}{l}
J = E\left\{\frac{1}{2}x^T(N)·S(N)·x(N) +\right. \\
\\
+\left. \frac{1}{2}\sum_{k=1}^{N-1}[x^T(k)\quad u^T(k)]\left(
\begin{array}{cc}
Q(k) & 0 \\
0 & P(k) \\
\end{array}
\right)\left(
\begin{array}{c}
x(k) \\
u(k) \\
\end{array}
\right)\right\}\qquad (120)
\end{array} \)
Para resolver este problema consideramos el error de estimación
del sistema dado por:
\(\tilde{x}(k) = x(k) - \hat{x}(k)\qquad (121) \)
para el que se cumple la ecuación:
\( \tilde{x}(k+1) = [\phi(k) - M(k)·D(k)]\tilde{x}(k)
+ \tilde{v}(k)\qquad (122) \)
en la que:
\( \widetilde{V}(k) = v(k) - M(k)·w(k)\qquad (123) \)
es un ruido blanco gaussiano, y donde M(k) es la matriz de ganancia
óptima dada por la ecuación (93).
La ecuación (120) puede simplificarse introduciendo en
ella la (121) ya que como demostramos a continuación, la
estimación óptima, \( \hat{x}(k) \), y el error
de estimación, \( \tilde{x}(k) \), son ortogonales. Tenemos
que la salida del sistema en el caso óptimo puede escribirse:
\( \hat{y}(k) = D(k)·\hat{x}(k) \qquad (124) \)
y en otra situación cualquiera:
\( y(k) = \hat{y}(k) + \tilde{y}(k)\qquad (125) \)
donde \( \tilde{y}(k) \) es una secuencia de innovación
que tiene características de ruido blanco gaussiano:
\( \tilde{y}(k)= D(k)·\hat{x}(k) + w(k)\qquad (126) \)
Teniendo en cuenta las ecuaciones (115) y (124), podemos escribir
la (125) en la forma:
\( D(k)·x(k) + w(k) = D(k)·\tilde{x}(k) + \tilde{y}(k)
\qquad (127) \)
y tomando covarianzas entre \( y(k) \; e \; y^T(k) \) :
\( \begin{array}{l}
Cov[y(k) \quad y^T(k)] = D(k)·Cov [x(k) \quad x^T(k)]D^T(k)
+ W = \\
\\
= D(k)· Cov [\hat{x}(k) \quad \hat{x}^T(k)]D^T(k) + Cov[\tilde{y}(k)
\; \; \tilde{y}^T(k)]
\end{array} \)
pero, de (126):
\( Cov[\tilde{y}(k) \quad \tilde{y}^T(k)] = D(k)·Cov
[\tilde{x}(k) \quad \tilde{x}^T(k)]D^T(k) + W\qquad (128) \)
por lo cual :
\( \begin{array}{l}
D(k)·Cov [x(k) \quad x^T(k)]D^T(k) = D(k)·Cov
[\hat{x}(k) \quad \hat{x}^T(k)]D^T(k) \\
\\
\qquad\qquad D(k)·Cov [\tilde{x}(k) \quad \tilde{x}^T(k)]D^T(k)
\end{array} \)
de donde se tiene :
\( Cov [x(k) \quad x^T(k)] = Cov [\hat{x}(k) \quad \hat{x}^T(k)]+Cov
[\tilde{x}(k) \quad \tilde{x}^T(k)] \quad(129) \)
y puesto que estamos considerando matrices cuadradas:
\( \displaystyle \begin{array}{l}
tr\left\{Cov [x(k) \quad x^T(k)]\right\} = \\
\\
= tr\left\{Cov [\hat{x}(k) \quad \hat{x}^T(k)]\right\}+tr\left\{Cov
[\tilde{x}(k) \quad \tilde{x}^T(k)]\right\}
\end{array}\)
Por otra parte, para cualquier par de vectores \( v_1, v_2 \),
se cumple:
\( traza(v_1·v_2^T) = v_1^T·v_2\qquad\qquad (130)\)
con lo que tendremos:
\(Cov [x^T(k) \quad x(k)] = Cov [\hat{x}^T(k) \quad \hat{x}(k)]+Cov
[\tilde{x}^T(k) \quad \tilde{x}(k)] \quad(131) \)
EI espacio de probabilidad de las funciones m-variables es un
espacio vectorial de dimensión m al que podemos dotar de
estructura de espacio prehilbertiano definiendo el producto interno:
\( (x,y) = Cov(x^T·y)\qquad\qquad (132) \)
y su norma asociada:
\( \|x\|^2 = Cov(x^T·y)\qquad\qquad (133) \)
Con ello, la ecuación (131) puede escribirse:
\( \|x(k)\|^2 = \|\hat{x}(k)\|^2 + \|\tilde{x}(k)\|^2\qquad\qquad
(134)
\)
pero, en términos de las propiedades de un espacio prehilbertiano
esta ecuación define la ortogonalidad de \( \hat{x}(k)\;
y\; \tilde{x}(k) \) relacionados por (121).
Así pues, utilizando (121) y teniendo en cuenta (134),
el criterio (120) puede escribirse como:
\( \displaystyle \begin{array}{l} J = E\left\{\frac{1}{2}\hat{x}^T(N)·S(N)·\hat{x}(N)
+\right. \\ \\ +\left. \frac{1}{2}\sum_{k=1}^{N-1}[\hat{x}^T(k)\quad
u^T(k)]\left( \begin{array}{cc} Q(k) & 0 \\ 0 & P(k) \\ \end{array}
\right)\left( \begin{array}{c} \hat{x}(k) \\ u(k) \\ \end{array}
\right)\right\}\; (135) \end{array} \)
donde \( \hat{x}(k) \) viene regido por la ecuación:
\( \hat{x}(k+1) = \phi(k)·\hat{x}(k) + B(k)·u(k)
+ W(k)·\tilde{y}(k)\; (136) \)
oon M(k) dado por (93) o \( \tilde{y}(k) \) dado por (125).
La conclusión que podemos extraer de lo expuesto es que
el sistema (115), (116) junto con el criterio (120) verifica
el teorema de separación. El problema planteado quedará
resuelto si obtenemos el control u(k) que minimice (l35). Pero
en este caso tenemos un problema de control óptimo de
un sistema lineal perturbado por un ruido blanco cuyo estado
es accesible. Para determinar el control óptimo, u(k),
que minimice (135), consideramos el siguiente lema:
Sea la ecuación en diferencias tipo Ricatti:
\( \begin{array}{c}
M(k) = \phi^T·M(k+1)·\phi + S - \phi^T·M(k+1)·
\\
\\
·B[P+B^T·M(k+1)B]^{-1}B^TM(k+1)\phi
\end{array} \)
con la condición inicial:
y que tiene una solución definida positiva \( \forall
\;0\leq k\leq N \). Entonces el criterio J dado por (135) se escribe:
\( \displaystyle \begin{array}{l}
J = E\left\{\frac{1}{2}\hat{x}^TS·\hat{x}(N) + \frac{1}{2}\|T(k)[u(k)
+ L(k)·x(k)]\|^2 + \right. \\
\\
\sum_{k=1}^{N-1}\left[v^T(k)·M(k+1)[\phi·x(k)
+ B·u(k)]\right.+ \\
\\\left.\left.+ \frac{1}{2}v^T(k)·M(k+1)·v(k)\right]\right\}\qquad(137)
\end{array}\)
siendo T(k) y L(k) matrices definidas por :
\( \displaystyle \begin{array}{cc}
T^T(k)·T(k) = P + B^TM(k+1)·P & \; (138) \\
& \\
L(k) = \left[P + B^T·M(k+1)·B\right]^{-1}·B^T·M(k+1)·\phi
& \; (139)
\end{array} \)
Desarrollando la expresión (137) tenemos:
\( \displaystyle \begin{array}{ll}
J = E\left\{\frac{1}{2}·\hat{x}^T(N)·S·\hat{x}(N)\right\}
+\\ \\+ \left\{\frac{1}{2}\|T(k)[u(k)+L(k)·\hat{x}(k)]\|^2
+\right\} & \\
& \\
+ E\left\{\frac{1}{2}\sum_{k=1}^{N-1}v^T(k)·M(k+1)·v(k)\right\}
\; (140)&
\end{array} \)
ya que los otros términos desaparecen por ser v(k) un ruido
blanco.
El valor mínimo de (140) es:
\( \displaystyle\begin{array}{l}
\min J = E\left\{\frac{1}{2}·\hat{x}^T(N)·S·\hat{x}(N)\right\}
+ \\
\\
+ E\left\{\frac{1}{2}\sum_{k=1}^{N-1}v^T(k)·M(k+1)·v(k)\right\}
\end{array} \)
y resulta para:
\( u^*(k) = -L(k)·\hat{x}(k)\qquad\qquad (141) \)
cen L(k) dado por la ecuación (l39).
De lo anterior podemos sacar varias conclusiones:
1) En un sistema estocástico con medida exacta del vector
de estado x(k), el control óptimo estocástico
tiene la misma estructura que el control óptimo determinista,
2) En un sistema estocástico se verifica:
\( \displaystyle \lim_{k\rightarrow\infty}\left(\min E[J]\right)
= \infty \)
mientras que en un sistema determinista :
\( \displaystyle \lim_{k\rightarrow\infty}\left(\min J\right)
= Cte \)
Por lo que podemos decir que la perturbación estocástica
v(k) degrada las realizaciones del sistema (incrementa el valor
del índice de funcionamiento en si mismo).
3) El sistema estocástico (116) y el índice de
funcionamiento (120) verifican el principio de equivalencia
certidumbre ya que el control óptimo os el mismo que
el calculado para el caso determinista en el que se reemplaza
la variable determinista x(k) por la mejor estimación
de la variable aleatoria x(k) que en este caso es la propia
variable aleatoria.