Safe Haskell	None
Language	Haskell2010

RL.MC

Synopsis

Documentation

data MC_Opts Source #

Constructors

MC_Opts
Fields o_alpha :: MC_Number o_maxlen :: Int o_maxlen_reward :: MC_Number

Instances

Show MC_Opts Source #
Methods showsPrec :: Int -> MC_Opts -> ShowS # show :: MC_Opts -> String # showList :: [MC_Opts] -> ShowS #

defaultOpts :: MC_Opts Source #

type MC_Number = Double Source #

type Q s a = M s a MC_Number Source #

type V s = HashMap s MC_Number Source #

emptyQ :: MC_Number -> Q s a Source #

q2v :: (Bounded a, Enum a, Eq a, Hashable a, Eq s, Hashable s) => Q s a -> V s Source #

diffV :: (Eq s, Hashable s) => V s -> V s -> MC_Number Source #

toV :: (Bounded a, Enum a, Eq a, Hashable a, Eq s, Hashable s) => Q s a -> V s Source #

class (Fractional num, Ord s, Ord a, Show s, Show a, Bounded a, Enum a) => MC_Problem pr s a num | pr -> s, pr -> a, pr -> num where Source #

Minimal complete definition

mc_is_terminal, mc_reward

Methods

mc_is_terminal :: pr -> s -> Bool Source #

mc_reward :: pr -> s -> a -> s -> num Source #

queryQ :: (Hashable s, Hashable k, MonadState (M s k v) f, Eq s, Eq k, Enum k, Bounded k) => s -> f [(k, v)] Source #

modifyQ :: (Hashable a, Hashable s, MonadState (M s a num) m, Eq a, Eq s, Enum a, Bounded a) => s -> a -> (num -> num) -> m () Source #

data MC pr m s a Source #

Constructors

MC
Fields mc_pr :: pr mc_transition :: s -> a -> m s

mc_es_learn :: (Monad m, Hashable s, Hashable a, MC_Problem pr s a MC_Number) => MC_Opts -> Q s a -> s -> a -> MC pr m s a -> m (Q s a) Source #

MC-ES learning algorithm, pg 5.4. Alpha-learing rate is used instead of total averaging, maximum episode length is limited to make sure policy it terminates