Optimización Bayesiana no miope POMDP para procesos con restricciones de operación y presupuesto finito

  1. Pitarch, José Luis 1
  2. Armesto, Leopoldo 1
  3. Sala, Antonio 1
  1. 1 Universidad Politécnica de Valencia
    info

    Universidad Politécnica de Valencia

    Valencia, España

    ROR https://ror.org/01460j859

Revista:
Revista iberoamericana de automática e informática industrial ( RIAI )

ISSN: 1697-7920

Año de publicación: 2024

Volumen: 21

Número: 4

Páginas: 328-338

Tipo: Artículo

DOI: 10.4995/RIAI.2024.21142 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Revista iberoamericana de automática e informática industrial ( RIAI )

Resumen

Mejorar la toma de decisiones a partir de los resultados observados tras la experimentación es una tarea habitual en muchas aplicaciones, tanto a nivel de investigación en laboratorio como en procesos de producción industriales. Sin embargo, realizar experimentos suele acarrear un coste no despreciable, por lo que una excesiva exploración es perjudicial. La optimización bayesiana es una técnica muy utilizada en este contexto, decidiendo la siguiente experimentación en base a un modelo estadístico.No obstante, está técnica no tiene en cuenta explícitamente el coste real de realizar un experimento, ni si existe un presupuesto (o número de experimentos, tiempo, etc.) máximo. El problema de toma de decisiones bajo  incertidumbre y presupuesto finito puede plantear como un Proceso de Decisión de Márkov Parcialmente  observable (POMDP, por sus siglas en inglés). Este trabajo aborda el problema de optimización experimental sujeta a restricciones de operación con un enfoque POMDP, donde las posibles decisiones vienen proporcionadas por heurísticas de la optimización bayesiana, o de otra índole definida por el usuario. La estrategia consiste en construir un árbol de posibles escenarios partir del conocimiento (incierto) acerca del proceso/sistema aprendido a partir de experimentos previos. Dicho conocimiento se modela mediante procesos Gaussianos, que se actualizan con cada nueva observación. La evaluación sobre la mejor decisión a tomar se realiza mediante programación dinámica. El algoritmo desarrollado ha sido evaluado mediante comparación con otras opciones de la literatura en un banco de pruebas sintético, y para optimizar un proceso químico de producción por lotes.

Información de financiación

Financiadores

Referencias bibliográficas

  • Abramowitz, M., Stegun, I.A., 1972. Handbook of mathematical functions, 10th printing with corrections, Dover Publications, ISBN: 978-0-486- 61272-0. [Ecuación 25.4.46]
  • Armesto, L., Pitarch, J.L., Sala, A., 2023. Acquisition function choice in Bayesian optimization via partially observable Markov decision process. IFAC-PapersOnLine, 56(2), 1572-1577. https://doi.org/10.1016/j.ifacol.2023.10.1856
  • Armesto, L., Sala, A., 2022. Volume-weighted Bellman error method for adaptive meshing in approximate dynamic programming. Revista Iberoamericana de Automática e Informática industrial, 19(1), 37-47. https://doi.org/10.4995/riai.2021.15698
  • Astudillo, R., Jiang, D., Balandat, M., Bakshy, E., Frazier, P., 2021. Multi-step budgeted Bayesian optimization with unknown evaluation costs. Advances in Neural Information Processing Systems, 34, 20197-20209.
  • Busoniu, L., Babuska, R., De Schutter, B., Ernst, D., 2017. Reinforcement learning and dynamic programming using function approximators. CRC press. https://doi.org/10.1201/9781439821091
  • Calandra, R., Seyfarth, A., Peters, J., Deisenroth, M.P., 2016. Bayesian optimization for learning gaits under uncertainty. Annals of Mathematics and Artificial Intelligence 76, 5-23. https://doi.org/10.1007/s10472-015-9463-9
  • Cressie, N., 1990. The origins of kriging. Mathematical Geolology 22, 239-252. https://doi.org/10.1007/BF00889887
  • Deisenroth, M.P., Neumann, G., Peters, J., 2013. A survey on policy search for robotics. Foundations and Trends® in Robotics 2, 1-142. https://doi.org/10.1561/2300000021
  • del Rio Chanona, E.A., Petsagkourakis, P., Bradford, E., Graciano, J.E.A., Chachuat, B., 2021. Real-time optimization meets Bayesian optimization and derivative-free optimization: A tale of modifier adaptation. Computers & Chemical Engineering 147, 107249. https://doi.org/10.1016/j.compchemeng.2021.107249
  • Duvigneau, R., Chandrashekar, P., 2012. Kriging‐based optimization applied to flow control. International Journal for Numerical Methods in Fluids, 69(11), 1701-1714. https://doi.org/10.1002/fld.2657
  • Frazier, P.I., 2018. Bayesian optimization, in: Recent advances in optimization and modeling of contemporary problems. Informs, 255-278. https://doi.org/10.1287/educ.2018.0188
  • Gardner, J.R., Kusner, M.J., Xu, Z., Weinberger, K.Q., Cunningham, J.P., 2014. Bayesian optimization with inequality constraints. Proceedings of the 31st Inter. Conf. on Machine Learning, ICML, 937-945.
  • Gelbart, M.A., Snoek, J., Adams, R.P., 2014. Bayesian optimization with unknown Constraints. Proceedings of the 30th Conf. on Uncertainty in Artificial Intelligence, UAI, 250-259.
  • Girbés-Juan, V., Moll, J., Sala, A., Armesto, L., 2023. Cautious Bayesian optimization: A line tracker case study. Sensors 23(16), 7266. https://doi.org/10.3390/s23167266
  • Hoffman, M., Brochu, E., De Freitas, N., 2011. Portfolio allocation for Bayesian optimization. UAI, pp. 327-336.
  • Lam, R., Willcox, K., Wolpert, D.H., 2016. Bayesian optimization with a finite budget: An approximate dynamic programming approach. Advances in Neural Information Processing Systems 29, 883-891.
  • Lam, R., Willcox, K., 2017. Lookahead Bayesian optimization with inequality constraints. Advances in neural information processing systems 30.
  • Letham, B., Karrer, B., Ottoni, G., Bakshy, E., 2019. Constrained Bayesian optimization with noisy experiments. Bayesian Analysis 14(2), 495-519. https://doi.org/10.1214/18-BA1110
  • Mora, J.P., Samper, J., Carlos F., 2023. Estudio de la optimización Bayesiana para reducir el consumo energético de un robot paralelo durante tareas pick and place. Revista Iberoamericana de Automática e Informática industrial, 20(1), pp. 1-12. DOI: 10.4995/riai.2022.16724
  • https://doi.org/10.4995/riai.2022.16724
  • Paulson, J.A., Sorouifar, F., Chakrabarty, A., 2022. Efficient multi-step lookahead Bayesian optimization with local search constraints. IEEE 61st Conference on Decision and Control (CDC), 123-129. https://doi.org/10.1109/CDC51059.2022.9992943
  • Jaiswal, P., Honnappa, H., Rao, V.A., 2023. Bayesian joint chance constrained optimization: Approximations and statistical consistency. SIAM Journal on Optimization, 33(3), 1968-1995. https://doi.org/10.1137/21M1430005
  • Pitarch, J.L., Armesto, L., Sala, A., Montes, D., 2023. Optimización experimental con presupuesto finito combinando heurísticas Bayesianas en un POMDP. XLIV Jornadas de Automática, 447-452. https://doi.org/10.17979/spudc.9788497498609.447
  • Rasmussen, C. E., Williams, C. K., 2006. Gaussian processes for machine learning. Cambridge, MA: MIT press. https://doi.org/10.7551/mitpress/3206.001.0001
  • Rodríguez-Blanco, T., Sarabia, D., Pitarch, J.L., de Prada, C., 2017. Modifier adaptation methodology based on transient and static measurements for RTO to cope with structural uncertainty. Computers & Chemical Engineering 106, 480-500. https://doi.org/10.1016/j.compchemeng.2017.07.001
  • Spaan, M.T.J., 2012. Partially observable Markov decision processes. (eds. Wiering, M., van Otterlo, M.) Reinforcement Learning. Springer, 387-414. https://doi.org/10.1007/978-3-642-27645-3_12
  • Wan, E.A., van der Merwe, R., 2001. The unscented Kalman filter. Kalman Filtering and Neural Networks (ed. Haykin S.), 221-280. https://doi.org/10.1002/0471221546.ch7
  • Wu, J., Frazier, P., 2019. Practical two-step lookahead Bayesian optimization. Advances in neural information processing systems, 32.
  • Wu, T., Movellan, J., 2012. Semi-parametric Gaussian process for robot system identification. IEEE/RSJ Inter. Conf. on Intelligent Robots and Systems, Vilamoura-Algarve, Portugal, 725-731. https://doi.org/10.1109/IROS.2012.6385977
  • Yip, W.S., Marlin, T.E., 2003. Designing plant experiments for real time optimization systems. Control Engineering Practice 11, 837-845. Process Dynamics and Control. https://doi.org/10.1016/S0967-0661(02)00213-7
  • Zhang, Y., Forbes, J.F., 2000. Extended design cost: A performance criterion for real-time optimization systems. Computers & Chemical Engineering 24(8), 1829-1841. https://doi.org/10.1016/S0098-1354(00)00561-5