欢迎来到天天文库
浏览记录
ID:52770920
大小:783.28 KB
页数:31页
时间:2020-03-08
《物联网智能技术 教学课件 作者 张文宇 李栋 10.第十章.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、物联网智能技术第10章multiagent多智能体第10章multiagent多智能体10.1多智能体的概念与发展过程10.2多智能体强化学习10.3博弈学习10.1多智能体的概念与发展过程10.1.1智能体的定义智能体(Agent):一般认为智能体是一个软硬件实体,它能够与环境交互信息,并能作用于自身和环境。对于机器Agent,其传感器为眼睛,耳朵和其他器官,其执行器为手、脚、嘴和其他身体部分。对于软件Agent,则通过编码位的字符串进行感知和作用。310.1多智能体的概念与发展过程10.1.1智能体的定义智能体(Agent)一般具
2、有如下特征:4自主性社会能力反射性前瞻性理性除了这些基本特征外,某些Agent还表现出一些其它的特性:长寿性移动性推理能力规划能力学习适应能力10.1多智能体的概念与发展过程10.1.2多智能体的发展历史和研究领域智能体(Agent)的历史可以追溯到70年代前期马萨诸塞理工大学一系列关于分布式人工智能的研究。多智能体系统研究领域,主要包括:5多智能体规划、学习、推理、协商、交互机制等等理论,及其实际应用。10.1多智能体的概念与发展过程610.1.2多智能体的发展历史和研究领域多智能体之间的协调网络管理产品设计分布式系统复杂系统的调度
3、和控制智能体技术针对不同方面进行的研究10.1多智能体的概念与发展过程710.1.3多智能体与自治智能体多Agent系统(Multi-agentSystem,MAS):由异构、分布、动态、大规模、自治Agent松散藕合所构成的大型复杂系统,通过这些Agent相互作用可以解决由单一个体不能处理的复杂问题。自治Agent:指Agent能不受人或外界因素的干涉而独立地运行,利用自治agent可以有效提高多agent系统的性能。10.1多智能体的概念与发展过程10.1.3多智能体与自治智能体多Agent系统有如下特点:由多个Agent构成,且
4、每个Agent都有目标和行为模型每个Agent只具有不完全的信息和问题求解能力,知识和数据分散,多Agent系统存在全局控制,计算过程是异步、并发或并行的每个Agent的行为都可以导致环境变化,所以多Agent系统本质上是一个动态系统多Agent系统中的Agent通过交互求解问题810.1多智能体的概念与发展过程910.1.4智能体的学习在MAS中,智能体有两种类型的学习方式:集中的独立式学习(单个智能体的学习)分布的汇集式学习(多智能体系统的学习)10.1多智能体的概念与发展过程从基于信念的学习、基于性能的学习和强化学习三方面阐述智
5、能体学习的不同方法:10智能体知识的产生与更新主动式学习被动式学习强化学习:是Agent通过试错法和动态环境交互而获得行为的方法。这是一种从环境到行为的映射学习,其目的是使得标量的回报或者增强的信号最大化基于性能的学习基于结果的学习竞争驱动的学习资源驱动的学习基于补偿的学习合作式学习环境切换驱动的学习10.1.4智能体的学习10.2多智能体强化学习10.2.1马尔可夫决策过程马尔可夫决策过程(MarkovDecisionProcesses,简称为MDP)是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是指决策者周期
6、地或连续地观察具有马尔可夫过程性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步的状态是随机的,并且其状态转移概率具有马尔可夫过程性。1110.2多智能体强化学习10.2.1马尔可夫决策过程马尔可夫决策过程(Markovdecisionprocesses,MDP)是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫过程性的随机动态系统,序贯地做出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动做出决策,
7、系统下一步的状态是随机的,并且其状态转移概率具有马尔可夫过程性。1210.2多智能体强化学习10.2.1马尔可夫决策过程马尔可夫决策过程是描述Agent与环境之间相互作用的一种模型,如下图1所示。Agent接受环境的状态作为输入,并产生动作作为输出,而这些动作会影响环境的状态。在马尔可夫决策过程的理论框架中,Agent是具有完全的感知能力,Agent的行动会对环境产生不确定的影响。1310.2多智能体强化学习14图1马尔可夫决策过程的基本模型10.2多智能体强化学习1510.2多智能体强化学习16通常使用概率的方法来处理Agent对自
8、己所处的当前世界状态认知的不确定性。随机变量从状态集合中取值,随机变量受过去的状态影响。图2所示的是一个离散的、随机的动态系统,图中的每个结点表示在某一时刻的某一状态。连接两个结点的弧,表示前一状态对后一状态有直接的概率
此文档下载收益归作者所有