データからベイジアンネットを自動生成モデルを使う
ランニングできず 英語できず
(1) 動的ベイジアンネットによるロボット制御では、Thrunの確率ロボテックスのPOMDPでも行っている。これは方策πが確信度の関数で最大価値Vを計算するモデルであるので、確信度を動的ベイジアンネットで計算するものである。
ベイジアンネットにこだわるのは、データからベイジアンネットを生成する実験と論文を書いたことがあり、かなり納得できる成果が得られたことである。
https://www.slideshare.net/MasatoNakai1/inference-bayesian-network-from-data
動的ベイジアンネット図から特徴量を選択するアルゴリズムにより
(報酬のノードから時系列ベイジアンネット上に遡って関連するノードを選択するモデル)
データ→ベイジアンネット生成→特徴量選択→最適行動モデルが実現できると
考えられる。
これは、データから最適行動を採る逆強化学習そのものであり、これとの比較ができる。