Yufei Zhang

SIAM J. Control. Optim., February, 2024

A Fast Iterative PDE-Based Algorithm for Feedback Controls of Nonsmooth Mean-Field Control Problems.

[BibT_eX]

[DOI]

SIAM J. Sci. Comput., 2024

Convergence of Policy Gradient Methods for Finite-Horizon Exploratory Linear-Quadratic Control Problems.

[BibT_eX]

[DOI]

Michael Giegrich

SIAM J. Control. Optim., 2024

Entropy annealing for policy mirror descent in continuous time and space.

[BibT_eX]

[DOI]

Deven Sethi

David Siska

CoRR, 2024

ε-Policy Gradient for Online Pricing.

[BibT_eX]

[DOI]

CoRR, 2024

Mirror Descent for Stochastic Control Problems with Measure-valued Controls.

[BibT_eX]

[DOI]

CoRR, 2024

2023

Linear Convergence of a Policy Gradient Method for Some Finite Horizon Continuous Time Control Problems.

[BibT_eX]

[DOI]

SIAM J. Control. Optim., December, 2023

Reinforcement Learning for Linear-Convex Models with Jumps via Stability Analysis of Feedback Controls.

[BibT_eX]

[DOI]

Xin Guo

Anran Hu

SIAM J. Control. Optim., April, 2023

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces.

[BibT_eX]

[DOI]

CoRR, 2023

Towards An Analytical Framework for Potential Games.

[BibT_eX]

[DOI]

Xin Guo

CoRR, 2023

Insurance pricing on price comparison websites via reinforcement learning.

[BibT_eX]

[DOI]

Leandro Sánchez-Betancourt

CoRR, 2023

A Neural RDE approach for continuous-time non-Markovian stochastic control problems.

[BibT_eX]

[DOI]

Melker Hoglund

Emilio Ferrucci

Camilo Hernández

Aitor Muguruza Gonzalez

Cristopher Salvi

CoRR, 2023

2022

Logarithmic Regret for Episodic Continuous-Time Linear-Quadratic Reinforcement Learning over a Finite-Time Horizon.

[BibT_eX]

[DOI]

J. Mach. Learn. Res., 2022

Convergence of policy gradient methods for finite-horizon stochastic linear-quadratic control problems.

[BibT_eX]

[DOI]

Michael Giegrich

CoRR, 2022

Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning.

[BibT_eX]

[DOI]

CoRR, 2022

Linear convergence of a policy gradient method for finite horizon continuous time stochastic control problems.

[BibT_eX]

[DOI]

CoRR, 2022

2021

Regularity and Stability of Feedback Relaxed Controls.

[BibT_eX]

[DOI]

SIAM J. Control. Optim., 2021

A Neural Network-Based Policy Iteration Algorithm with Global H<sup>2</sup>-Superlinear Convergence for Stochastic Games on Domains.

[BibT_eX]

[DOI]

Kazufumi Ito

Found. Comput. Math., 2021

Exploration-exploitation trade-off for continuous-time episodic reinforcement learning with linear-convex models.

[BibT_eX]

[DOI]

CoRR, 2021

A penalty scheme and policy iteration for nonlocal HJB variational inequalities with monotone nonlinearities.

[BibT_eX]

[DOI]

Comput. Math. Appl., 2021

2020

Error Estimates of Penalty Schemes for Quasi-Variational Inequalities Arising from Impulse Control Problems.

[BibT_eX]

[DOI]

SIAM J. Control. Optim., 2020

Regularity and time discretization of extended mean field control problems: a McKean-Vlasov FBSDE approach.

[BibT_eX]

[DOI]

CoRR, 2020

A posteriori error estimates for fully coupled McKean-Vlasov forward-backward SDEs.

[BibT_eX]

[DOI]

CoRR, 2020

Understanding Deep Architectures with Reasoning Layer.

[BibT_eX]

[DOI]

CoRR, 2020

Understanding Deep Architecture with Reasoning Layer.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, 2020

2019

A Penalty Scheme for Monotone Systems with Interconnected Obstacles: Convergence and Error Estimates.

[BibT_eX]

[DOI]

SIAM J. Numer. Anal., 2019

Rectified deep neural networks overcome the curse of dimensionality for nonsmooth value functions in zero-sum games of nonlinear stiff systems.

[BibT_eX]

[DOI]