多跳认知蜂窝网络及无线虚拟化网络中基于pomdp模型的资源管理研究

ID：35072328

大小：4.22 MB

页数：92页

时间：2019-03-17

上传者：U-24835

资源描述：

《多跳认知蜂窝网络及无线虚拟化网络中基于pomdp模型的资源管理研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

中文图书分类号：TN929.5密级：公开UDC：39学校代码：10005硕士学位论文MASTERALDISSERTATION论文题目：多跳认知蜂窝网络及无线虚拟化网络中基于POMDP模型的资源管理研究论文作者：闫玉玮学科：信息与通信工程指导教师：张延华教授司鹏搏副教授论文提交日期:2016年6月 UDC：39学校代码：10005中文图书分类号：TN929.5学号：S201302098密级：公开北京工业大学工学硕士学位论文多跳认知蜂窝网络及无线虚拟网络中基于题目：POMDP模型的资源管理研究英文题目：RESEARCHONRESOURCEMANAGEMENTINMULTIHOPCOGNITIVECELLULARNETWORKSANDWIRELESSVIRTULIZEDNETWORKSWITHPOMDPFORMULATION论文作者：闫玉玮学科：信息与通信工程研究方向：移动通信技术申请学位：工学硕士指导教师：张延华教授司鹏搏副教授所在单位：电子信息与控制工程学院答辩日期：2016年6月授予学位单位：北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：闫玉玮日期：2016年6月6日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。（保密的论文在解密后应遵守此规定）签名：闫玉玮日期：2016年6月6日导师签名：张延华日期：2016年6月6日摘要摘要在无线通信中，无线频谱资源是宝贵且有限的资源，但是随着人们对于无线通信的速率需求越来越高以及无线通信业务的快速发展，无线频谱资源短缺问题越来越严重。然而目前大量无线频谱资源的使用率非常低下，大部分频谱的使用率在15%—85%不等，导致无线频谱资源的利用问题日益严重。传统的长期固定的频谱分配方法的弊端越来越明显，这种方法显然已经不再适用于现今无线通信快速发展的情况。因此，有研究者提出了认知无线电（CognitiveRadio，CR）技术，通过认知无线电技术实现无线频谱资源的动态管理分配，提高频谱资源的利用率。将虚拟化技术应用到无线网络中，使一个实体资源可以虚拟化为多个逻辑资源，允许多个用户同时使用，提高无线频谱资源的利用率和灵活性。本论文主要研究在多跳认知蜂窝网络以及无线虚拟网络中的动态资源管理方法，在无线虚拟网络中分别考虑了低频切换以及缓存与频谱资源的联合管理问题，针对这两方面分别进行了研究。在多跳认知蜂窝网络中，针对现有技术中存在的频谱资源紧缺以及传输信息延迟的问题，提出了一种以信息为中心的多跳认知蜂窝网络架构来解决以信息为中心的网络存在的频谱资源管理问题。以最大化系统的总收益为目标进行优化，将在此网络中的动态频谱管理问题建模为带有未知及动态变化参数的马尔可夫决策过程，再转化为部分可观测马尔可夫决策过程进行求解。通过这种方法可以有效地利用频谱资源并减少用户请求的响应时间。在无线虚拟网络中，首先考虑了面向低频资源切换的资源管理。为了减少资源切换带来的成本费用及能源消耗，引入了优先权概念，使具有优先权的服务供应商能够持续使用资源。以最大化服务供应商的收益为目标，将此问题中的动态资源管理建模为部分可观测马尔可夫决策过程。通过这种方法不仅能够降低资源切换造成的功耗，还能够降低服务供应商的成本费用，使其获得更多的收益。其次，还考虑了将缓存资源和频谱资源进行联合管理。以最大化服务供应商的总收益为目标，同时考虑缓存和频谱使用的费用，将资源管理问题建模为具有未知参数的马尔可夫决策过程，再将这一模型建模为部分可观测马尔可夫决策过程进行求解。通过这种方法能够使资源分配更加合理，系统性能得到显著提升。关键词：多跳认知蜂窝网络；无线虚拟网络；动态资源管理；POMDPI AbstractAbstractInwirelesscommunications,wirelessspectrumisvaluableandlimitedresource.Astheuserdemandfortherateofwirelesscommunicationsgrowssignificantly,andtheapplicationsofwirelesscommunicationsincreasesrapidly,thewirelessspectrumresourceshortageproblemismoreandmoresevere.However,theutilizationoftheexistingwirelessspectrumresourcesisverylow,ofwhichtheutilizationefficiency15%-85%,resultinginthemoreseverespectrumutilizationproblem.Thedisadvantagesoftraditionallong-termfixedspectrumallocationmethodareobvious.Thismethodisnolongersuitablefortoday'srapidlydevelopingwirelesscommunicationtechnologies.Therefore,someresearchershaveproposedtheCognitiveRadio(CR)technology.ThedynamicmanagementofwirelessspectrumresourcescanberealizedbyCRtechnologyandtheutilizationefficiencyofspectrumcanbeimproved.Besides,thevirtualizationtechnologyisappliedtothewirelessnetworks,whichenablesanentitytobevirtualizedintomultiplelogicalresourcesandallowsmultipleuserstoaccesstheresourcessimultaneously.Thisthesismainlystudiesthedynamicresourcemanagementinmultihopcognitivecellularnetworksandvirtualizedwirelessnetworks.Invirtualizedwirelessnetworks,thelowfrequencyswitchingandthejointmanagementproblemofcacheandspectrumresourcesisalsostudied.Inmultihopcognitivecellularnetworks,thisthesisproposesaninformation-centricmultihopcognitivecellularnetworksarchitecturetosolvethespectrumresourcemanagementproblemininformation-centricnetworks.Tooptimizethesystemwiththeobjectiveofmaximizingthetotalreward,thedynamicspectrummanagementissueinthenetworkismodeledasaMarkovdecisionprocesswithhiddenanddynamicparameters,andthenthismodelismodeledasapartiallyobservableMarkovdecisionprocesstosolvetheproblem.Spectrumresourcescanbeeffectivelyusedandtheresponsetimeofusers’requirementcanbereducedinthisway.Invirtualizedwirelessnetworks,resourcemanagementorientedlowfrequencyswitchingisconsidered.Toreducethecostandenergyconsumptioncausedbyresourceswitching,theconceptofpriorityisintroducedtomaketheserviceproviderswithhigherpriorityuseresourcescontinuously.Tomaximizeserviceproviders’profit,theproblemofdynamicresourcemanagementismodeledasapartiallyobservableMarkovdecisionprocess.Thismethodcanreducenotonlytheenergyconsumptioncausedbyresourceswitching,andalsothecostofserviceprovidersforhigherreward.Furthermore,thejointmanagementofcacheresourceandspectrumresourceistakenIII 北京工业大学工学硕士学位论文intoconsidered.Tomaximizethetotalrewardofserviceproviders,thecostofcacheandthecostofspectrumutilizationareconsideredandthesametimeandresourcemanagementproblemismodeledasaMarkovdecisionprocesswithunknownparameter.ThenitismodeledasapartiallyobservableMarkovdecisionprocess.Resourceallocationcanbemorereasonableandthesystemperformanceisimproved.Keywords:Multihopcognitivecellularnetworks;Virtualizedwirelessnetworks;Dynamicresourceallocation;POMDPIV 目录目录摘要.............................................................................................................................IAbstract.......................................................................................................................III目录...........................................................................................................................V第1章绪论..................................................................................................................11.1课题研究背景及意义......................................................................................11.2国内外研究现状...............................................................................................31.2.1认知无线电的发展.................................................................................31.2.2无线网络虚拟化的发展.........................................................................51.3论文主要研究内容和结构安排.......................................................................7第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究..........................92.1多跳认知蜂窝网络...........................................................................................92.1.1多跳蜂窝网络.........................................................................................92.1.2认知无线电定义及其概念模型...........................................................112.1.3多跳认知蜂窝网络体系结构...............................................................132.1.4多跳认知蜂窝网络中的频谱感知.......................................................142.1.5动态频谱分配.......................................................................................142.2无线虚拟网络.................................................................................................152.2.1无线网络虚拟化的定义.......................................................................152.2.2无线网络虚拟化的架构.......................................................................162.2.3资源虚拟化...........................................................................................182.2.4关键技术...............................................................................................182.2.5面临的挑战...........................................................................................192.3本章小结.........................................................................................................20第3章部分可观测马尔可夫决策过程....................................................................213.1马尔可夫决策过程........................................................................................213.1.1基本模型...............................................................................................213.1.2最优策略...............................................................................................223.1.3值函数...................................................................................................233.1.4MDP典型算法.....................................................................................243.2部分可观测马尔可夫决策过程.....................................................................243.2.1基本模型...............................................................................................253.2.2状态信息...............................................................................................263.2.3策略和值函数.......................................................................................27V 北京工业大学工学硕士学位论文3.2.4POMDP算法........................................................................................283.3本章小结.........................................................................................................30第4章多跳认知蜂窝网络中的资源管理................................................................314.1引言.................................................................................................................314.2系统模型.........................................................................................................334.2.1网络模型...............................................................................................334.2.2服务模型...............................................................................................344.2.3频谱采集模型.......................................................................................354.2.4网络缓存模型.......................................................................................354.3带有未知及动态变化参数的马尔可夫决策过程建模.................................354.4部分可观测马尔可夫决策过程建模.............................................................404.5仿真结果及分析.............................................................................................414.6本章小结.........................................................................................................44第5章无线虚拟网络中面向低频资源切换的资源分配........................................455.1引言.................................................................................................................455.2系统模型.........................................................................................................465.2.1系统描述...............................................................................................475.2.2网络模型...............................................................................................485.2.3无线信道模型.......................................................................................485.2.4数据到达模型.......................................................................................495.3部分可观测马尔可夫决策过程建模............................................................495.4仿真结果及分析.............................................................................................545.5本章小结.........................................................................................................59第6章无线虚拟网络中缓存及频谱资源的联合管理............................................616.1引言.................................................................................................................616.2系统模型.........................................................................................................626.2.1网络架构...............................................................................................636.2.2服务模型...............................................................................................636.2.3收益及费用模型..................................................................................646.3具有未知参数的马尔可夫决策过程建模.....................................................646.4部分可观测马尔可夫决策过程建模.............................................................676.5仿真结果及分析.............................................................................................686.6本章小结.........................................................................................................72结论..............................................................................................................................75参考文献......................................................................................................................77攻读硕士学位期间所发表的学术论文......................................................................81VI 目录致谢..............................................................................................................................83VII 第1章绪论第1章绪论1.1课题研究背景及意义在现今全球社会经济高速发展的情况下，社会各行各业，日常工作、生活中都无法离开无线移动通信技术。随着人们对于无线通信的速率需求越来越高以及无线通信业务的快速发展，无线电频谱资源，这一有限的宝贵资源，成为全球各国高度重视的焦点。同时，无线电频谱资源的利用率问题变得日益严重，频谱资源紧张的问题引起了高度重视。目前，可利用的无线电频谱资源已基本分配完毕，而随着无线通信技术的发展，对于无线电频谱资源的需求会逐渐增加，这使无线电频谱资源的供求矛盾日益突出。由于现今依然采取的是单一的按需分配的计划方法将频谱资源进行分配，频谱管理及频谱分配都是固定的策略，不能够高效利用频谱资源的技术，使无线[1]通信在频谱使用上存在以下问题：无线电频谱资源供求矛盾越来越严重；按需分配频谱资源不能够预测将来对于频谱资源的需求量，当前的频谱被分成了过多的频谱块，当新需求出现时只能跳转到高频段，因此缺乏灵活性；单一的命令-控制模式管理方法使频谱资源的利用率较为低下，无法灵活地将空闲资源分配给其他需求量大的频段；无线通信技术、市场及业务都在不断变化和发展，然而频谱管理的政策却没有与之进行相应的修改。传统的频谱授权方式存在的问题日益明显，静态集中式管理方法不再适用于现今对于频谱资源大量需求的现状，这种原始的方法使得频谱资源的利用率特别低。美国联邦通信委员会（FederalCommunicationsCommission，FCC）经过调[2]查研究发现：大部分授权频谱的利用率低下，并且使用率处于15%—85%这种高度不均衡的状态。这种状态使得频谱资源在使用方面出现两种极端现象：一方面，非授权频段被各种系统使用，造成网络非常拥挤、业务非常繁重的现象；另一方面，一部分授权频段（例如授权给广播电视系统的频谱资源），频谱利用率极其低，使频谱资源的使用存在着严重“浪费”的现象。由此可见，传统的静态频谱资源分配政策弊端突出，使频谱资源没有得到充分利用。美国伯克利大学无线电研究中心（BerkeleyWirelessResearchCenter,BWRC）对于时间、地点以及无线通信技术的不同对于频谱的利用率进行了研究。于中午1 北京工业大学工学硕士学位论文时分，使用20KHz分辨率、30°角天线，在美国加州伯克利市市区对0—6GHz[3]频段的功率密度分布进行实际测量，得到的结果如图1-1所示。从图1-1可以看出，3—4GHz频段的利用率仅为0.5%，而4—5GHz频段的利用率更低，仅为0.3%。通过图1-1可以看出3GHz以上的频段都没有得到充分利用，由于频谱资源的利用率低下造成频谱资源短缺的假象。因此，各国学者都将提高频谱资源的利用率作为研究的重点。[3]图1-1市区内0—6GHz频谱的功率谱密度分布Figure1-1Asnapshotofthespectrumutilizationupto6GHzinanurbanarea为了解决静态频谱资源分配管理产生的问题，动态频谱分配管理策略被提出以提高频谱资源的利用率。动态频谱分配概念最早由英国Surrey大学PaulLeaves等人于2001年提出。动态频谱分配可以使频谱资源得到最大化的利用，提高了频谱资源的利用率。认知无线电（cognitiveradio，CR）技术被认为是一种能够提高频谱资源利用率的最佳方案，该技术通过频谱感知，并具有系统学习能力，使动态频谱分配得以实现，同时还实现了频谱共享。另一方面，虚拟化技术是对实体硬件资源进行软件抽象，将一组实体硬件资源抽象为若干相互独立的逻辑软件资源，用户在使用虚拟资源时，都会感觉自己使用的是单独的硬件资源。虚拟化技术的关键是通过资源调度，在保证用户使用体验的同时，实现系统资源利用率最大化，同时，这个调度的过程动态响应用户的需求变化。虚拟化技术应具有三个方面的特性：隔离性、可定制性、资源高效性。对硬件资源进行虚拟化是为了提高硬件设备的效率、支持已有服务的运维与新业务的迁移、降低现有系统的能耗、简化管理。在目前的互联网、云计算领域，终端系统的虚拟化技术已经获得了广泛的应用，有线网络虚拟化的发展正如火如荼，无线网络虚拟化技术也在逐渐发展起来。通过这种无线网络虚拟化技术也可以使频谱资源的利用率得到提高，解决频谱资源利用率低下的问题。2 第1章绪论1.2国内外研究现状1.2.1认知无线电的发展认知无线电的概念最早是由Mitola博士于1999提出，此概念是在软件定义无线电（SoftwareDefineRadio，SDR）的基础上产生的，认知无线电技术是对软件定义无线电功能的进一步扩展。认知无线电技术融合了智能计算和无线通信技术，通过与无线通信网络的智能交流，实时感知无线通信环境的变化，对通信信道中的一些参数，以及调制编码等相关参数进行调整，使其自身能够适应无线[4]通信环境的变化。自认知无线电技术的概念提出以来，各国学者都对其进行了大量的研究，为了能够实现认知无线电技术。美国联邦通信委员会（FCC）对于认知无线电技术的实现逐步给予了积极的支持，于2002年12月允许非授权设备识别未被占用的频段；于2003年11月提出干扰温度概念作为新的量化和管理干扰指标，扩展了非授权用户对于移动频段以及卫星频段的操作；于2003年12月成立了认知无线电工作组并修订了相关法律规定以支持认知无线电技术；于2004年5月建议非授权用户可以在TV广播频段进行操作。同样的，英国通信办公室（Ofcom）也[5]在频谱框架概述报告中引入了认知无线电技术，对其给予了相应的支持。认知无线电技术的发展使得一些国际标准化组织，如无线世界研究论坛（WWRF）、软件无线电论坛（SDRF）和美国电气电子工程师学会（IEEE）等参与到相关标准的制定中。IEEE802.22工作组于2004年11月由IEEE成立，也称为无线局域网（WRANs）工作组，主要负责制定一些列的标准来实现频谱共[6]享。IEEE802.22工作组在2005年9月完成了WRAN功能需求及信道模型的概述，2006年开始向各个公司提出合并提案，并于2006年3月完成了制定标准基础的最终合并提案，2008年标准草案形成，2011年第一个IEEE802.22标准发布。为了解决WIMAX缺乏可用频段问题，IEEE成立了IEEE802.16h工作解决共存问题。通过认知无线电技术使WIMAX可以适用于UHF电视频段，并且，使IEEE802.16系列标准可以使用非授权频段。IEEE802.22与IEEE802.16h中应用到的认知无线电技术都是认知无线电技术中的简单应用，2005年IEEE成立了IEEE1900标准组以对认知无线电技术进行进一步研究。国际电信联盟（InternationalTelecommunicationUnion，ITU）在2006年3月将认知无线电技术作为一项单独的课题进行研究，对该技术非常重视。软件无线电论坛（SDRF）在2004年10月成立了有关研究认知无线电技术的工作小组，主要对认知无线电平台及多模式功能的调整进行分析研究。无线世界研究论坛（WWRF）也对认知无线电给予了一定的重视，主要研究了认知无线3 北京工业大学工学硕士学位论文电可重配置网络技术，讨论了该技术的可实施性。认知无线电技术的发展过程可以简要表示为图1-2所示。图1-2认知无线电技术研究发展过程简表Figure1-2ThetableofdevelopmentofCognitiveRadio随着认知无线电技术的发展及FCC对于认知无线技术的支持与推进，各国的学者、工业界、学校、研究中心、科研企业都开始对认知无线电技术进行研究以实现该技术的应用。德国Karlsruhe大学F.K.Jondral教授等学者提出了频谱池系统并对其进行了分析研究；美国加州大学Berkeley分校R.W.Brodersen教授的科研小组提出了COVUS系统并对其进行研究；IanF.Akyildiz教授等来自美国乔治亚理工学院宽带和无线网络实验室的学者们提出了OCRA项目并对其进行分2析研究。此外还有美国国防先期研究计划局进行的XG项目以及欧盟进行的ER[7]项目。我国对于认知无线电的研究起步较晚，但对于该领域的研究也在逐渐追赶国际脚步，国家给予了一定的重视和支持。我国于2005年实施了“863”计划，该计划设立了“认知无线电关键技术”研究课题。在随后的几年，国家先后资助了多个与认知无线电相关的自然科技基金课题。在2008年，我国将研究的重点放在频谱认知、动态频谱管理以及抗干扰问题的解决上。之后，国家又实施了973计划，即国家重点基础研究发展计划，该计划主要针对解决异构网络融合问题，设立了“认知无线电网络基础理论与方法研究”项目，该项目主要研究了认知无线网络体系架构与协议、无线网络认知基础理论与方法、智能动态网络资源管理模型及控制等问题。近年来，“十一五”重大专项中也提及了“频谱的感知、共享以及灵活适用技术的验证及研究”。目前，国内多所高校，如清华大学、电子科技大学、北京邮电大学等，都已经展开对认知无线电技术的研究，并已取得一定的进展。从认知无线电技术在国内外的发展来说，越来越多的研究机构都逐渐加入到认知无线电技术的研究中，由此可见，认知无线电技术越来越受到人们的重视，该技术具有一定的发展与应用前景。4 第1章绪论1.2.2无线网络虚拟化的发展虚拟化是一种资源管理技术，是将计算机的各种实体资源，通过软件进行抽象，使实体资源可以实现分割，形成多个虚拟资源。通过虚拟化技术使用户可以更加灵活的使用这些资源。虚拟化技术在通信领域中已经展开研究，有线网络的虚拟化已有大量研究成果，无线网络中研究相对较少，但正在逐步追赶研究进度。有线网络虚拟化技术已经应用于有线网络交换系统中。例如VPN（VirtualPrivateNetwork，虚拟私有网络）技术现在已可以在运营商所提供的城域网和广域网中，在网络的各个层上（物理层、链路层、网络层）实现相互隔离的数据隧道。而VLAN（VirtualLocalAreaNetwork，虚拟局域网）技术则可以在交换网络中，将一个实体网络逻辑划分为若干个虚拟网络，用户在使用虚拟网络时既得到其申请的资源又能够相互隔离、互无干扰。一般来说，虚拟化技术就是将网络硬件资源进行逻辑划分，使得用户在使用时可以分享路由交换设备、链路甚至带宽。当然这些都须满足用户的数据访问、Qos（QualityofService，服务质量）和安全性需求，同时实现硬件资源利用率最大化。有线网络虚拟化技术的实现使人们对无线网络虚拟化技术的实现充满期待，主要有以下几个原因：随着移动互联网的发展，大数据时代的来临，越来越多的人们会选择无线接入来访问网络资源。同时，在现存的无线网络中，2G、3G、4G、WIFI以及WIMAX等无线接入技术将长期共存。人们希望可以看到利用无线网络虚拟化技术来简化这些异构网络的管理；无线网络虚拟化技术可以看作是在有线网络虚拟化技术的基础上与主机虚拟化技术结合并进行扩展延伸，原有的一些虚拟化技术可以直接迁移到无线网络虚拟化技术中；无线网络虚拟化技术的实现可以使频谱资源的利用率得到很大的提高，进而可以解决频谱资源的稀缺问题；无线虚拟化技术使服务供应商与基础设施供应商分别有自己的负责内容，服务供应商通过向基础设施供应商租用资源，可以降低自身的建设成本与运维成本；对于用户来说，不需要再关注使用了哪家网络平台，只需要考虑所需的网络服务即可。但无线网络虚拟化又不能简单认为是有线网络虚拟化的扩展，无线网络虚拟化技术包括了对基础设施的共享与无线频谱的共享。目前我们使用的无线网络中共存着大量不同的无线接入技术、不同的空中接口、不同的系统架构、不同的频带使用情况、不同的用户授权情况，不同的覆盖范围以及不同的移动性需求。在5 北京工业大学工学硕士学位论文无线接入网络与核心网络中运行的网络协议也有不同。无线网络在一个或多个管理区域中的干扰问题也是与有线网络的巨大差异。再有，无线网络的用户和设备，具有移动性，而有线网络则不考虑这个问题。最后，无线网络的频谱资源被政府和相关机构控制，不能随意使用。现有的对于无线网络虚拟化的研究方案主要是根据动态频谱访问（DynamicSpectrumAccess，DSA）概念以及对于某种无线技术进行虚拟化的尝试。在DSA领域的主要研究工作都集中在认知无线电技术。对于某种无线技术进行的虚拟化尝试已有很多工作。基于WLAN的虚拟化方案对于接入点的虚拟化问题进行了研究，将有限频谱资源进行划分，并将资源切片按照频谱公平性原则进行平均分配，为了达到这个目的，对IEEE802.11协议集中的CSMA/CA协议进行了修改[8]；在单个接入点的虚拟化的基础上，将单个WLAN接入点虚拟化为若干个虚[9]拟接入点后，实现基于时间公平性原则向各个虚拟接入点分配资源。基于LTE的虚拟化方案类似于在有线网络中对路由交换设备进行虚拟化，在LTE基站（e-NodeB’s或eNBs）物理层之上加入了一个“Hypervisor”，负责将LTE基站虚拟为多个虚拟基站，每个虚拟基站对应一个虚拟运营商。“Hypervisor”的另一个重要作用是在各虚拟运营商之间，对空中接口资源（PRB，PhysicalResourceBlock）进行调度分配。各虚拟运营商在每个时隙向Hypervisor发送反馈信息，Hypervisor将从每个虚拟基站收集这些信息，包括信道状态、流量负载、优先级、[10-12]Qos需求等，并依据这些信息向各虚拟运营商动态分配空中接口资源。基于WIMAX的虚拟化方案以帧交换的形式工作于MAC层实现虚拟基站的实现，方[13]案中的隔离机制能够显著提高网络中各级用户的聚合吞吐量；基于最优切片调度算法建立了一个简单权重模型，并利用凹型效能函数进行优化，进而实现虚拟[14]化的隔离性、可定制性、资源高效性。基于移动虚拟运营商（MobileVirtualNetworkOperator，MVNO）的虚拟化方案，MVNO是一种特殊的运营商，并不独自拥有底层无线网络，而是向一个或多个移动运营商（mobilenetworkoperator，MNO）租借无线频谱，并通过自己的交换中心与用户建立连接。这样的方式可以降低MVNO的网络建设与运营成本，使得MVNO将更多精力投入到新应用、新服务中。既能够提高MNO网络的运营效率，又是对MNO现有服务的有效补[15]充。无线网络虚拟化技术就目前的研究而言，依然存在接口、资源发现、资源管理、移动管理、隔离方法、定制方法等问题，因此对于无线网络虚拟化技术的研究还可以有很多方面可以展开。通过对无线虚拟化技术的定义及其优势可以看出该技术在今后的研究中有很大的发展前景。6 第1章绪论1.3论文主要研究内容和结构安排本文主要研究多跳认知蜂窝网络及无线虚拟网络中的资源管理问题，对服务供应商的行为决策进行优化，以最大化长期折扣收益为目标，利用马尔可夫决策过程模型及部分可观测马尔可夫决策过程模型进行计算，获得对服务供应商来说是最优化的资源竞争决策。对于多跳认知蜂窝网络来说，针对无线通信过程中频谱资源紧缺以及递送信息延迟问题进行研究，提出了一种以信息为中心的多跳认知蜂窝网络架构，通过仿真结果证明，这种方法能够有效地利用频谱资源，同时还能够减少用户要求的响应时间。对于无线虚拟网络来说，分别考虑了低频资源切换和缓存及频谱资源联合管理两个方面，针对这两个方面分别进行研究。在研究低频资源切换问题时，引入优先权概念，通过仿真结果证明，部分可观测马尔可夫决策过程模型可以提高服务供应商的平均收益。在研究缓存及频谱资源联合管理问题时，应用了具有未知参数的马尔可夫决策过程模型，通过仿真结果证明，这种方法可以显著提升服务供应商的平均收益。本文的主要研究内容和章节安排如下：第一章是全文的绪论，主要介绍本课题的研究背景、认知无线电以及无线网络虚拟化的国内外的研究现状及研究意义，表明通过认知无线电技术以及无线网络虚拟化技术可以提高资源的利用率，能够有效地缓解资源紧缺问题。最后一小节介绍了全文的内容安排。第二章主要讨论了多跳认知蜂窝网络、无线虚拟网络及其资源管理研究。分别研究了多跳认知蜂窝网络及无线虚拟网络的定义、架构，并对其频谱感知、分配等技术进行讨论，为后文的技术研究奠定基础。第三章研究部分可观测马尔可夫决策过程模型。首先从基本模型、最优策略、值函数以及其典型算法对马尔可夫决策过程进行讨论。而后对部分可观测马尔可夫决策过程进行研究，主要从基本模型、状态信息、策略和值函数以及其算法对部分可观测马尔可夫决策过程模型进行了讨论。第四章主要研究多跳认知蜂窝网络中的资源管理问题，首先建立了系统模型，具体由网络架构、服务模型、频谱采集模型以及网络缓存模型几部分组成。之后将该资源管理问题建模为具有隐藏或动态变化参数的马尔可夫决策过程模型。为了解决具有隐藏或动态变化参数的马尔可夫决策过程问题，又将其建模为部分可观测马尔可夫决策过程模型，并在Matlab的平台上进行系统仿真。通过仿真结果表明该方案可有效提高服务供应商的平均收益并提高资源的利用率。第五章主要研究无线虚拟网络中面向低频资源切换的资源分配问题。为了减少资源切换过程中产生的费用以及能源消耗，在本章的研究中引入优先权概念，减少资源切换频率。首先建立系统模型，具体由系统描述、网络模型、无线信道7 北京工业大学工学硕士学位论文模型以及数据到达模型四部分组成。之后将资源分配问题建模为部分可观测马尔可夫决策过程模型，并在Matlab的平台上进行系统仿真。通过大量的仿真结果证明，应用部分可观测马尔可夫决策过程模型与应用现有方法相比能够大幅度的提高服务供应商在资源竞争中的收益。第六章主要研究无线虚拟网络中缓存及频谱资源的联合管理问题。在无线虚拟网络中，服务供应商不仅要向基础设施供应商租用频谱资源，还要租用缓存资源用于存放用户要求传送的数据，综合考虑对资源联合管理问题进行研究。首先建立系统模型，具体由网络架构、服务模型和收益及费用模型三部分组成。之后将资源分配问题建模为具有未知参数的马尔可夫决策过程模型。为了解决具有未知参数的马尔可夫决策过程问题，又将其建模为部分可观测马尔可夫决策过程模型，并在Matlab的平台上进行系统仿真。通过大量的仿真结果证明，该方法能够在资源管理分配过程中大幅度的提高服务供应商的收益。8 第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究2.1多跳认知蜂窝网络随着通信技术的发展，第四代移动通信系统是一个多种通信系统的综合体，将由多种接入网构成，并且能够支持多种业务的无缝通信。在这样一个通信系统框架下，为了能够使网络具有一定的灵活性和可扩展性，并且能够将频谱资源高效地利用起来，在多跳蜂窝网络中引入认知无线电技术，可以满足第四代移动通信系统中的需求。2.1.1多跳蜂窝网络现在的无线通信网络有蜂窝网与非蜂窝网，但是无论是蜂窝网还是非蜂窝网都存在着一些缺陷问题。蜂窝网存在的缺陷有两方面——一方面是蜂窝网络的系统容量是有限的，而且为单个用户提供的有效流量也是有限的，这对于现在手机用户以及视频传输需求都不能够很好的满足；另一方面蜂窝网络为了保证能够覆盖所有的移动用户，尤其是同时要保证区域上和流量上两个方面，就需要进行复杂的网络规划，这样就提升了复杂度问题。非蜂窝网络也存在一定的缺陷——只适用于小范围内，覆盖范围较小，网络内的节点也不能够太多，这样就不能够很广泛的应用。[18]图2-1典型的多跳蜂窝网结构Figure2-1Thetypicalstructureofmultiplehopscellularnetwork图2-1为一种典型的多跳蜂窝网络架构。与传统的蜂窝网及非蜂窝网相比，多跳蜂窝网络能够更加高效地使用各种无线资源，具有更高的系统容量，同时还能够提高网络中的公平性。多跳蜂窝网络在结构上更像是通过蜂窝网和自组网的一种变化组合。与传统的蜂窝网络相同，在网络中的每个蜂窝中都有一个基站负9 北京工业大学工学硕士学位论文责资源管理并且向移动终端提供服务；而与传统的蜂窝网不同的地方在于，移动终端不但可以与基站直接建立连接，还可以通过多跳的方式利用中继与基站连接，[16-17]也可以通过其他节点连接到附近的其他基站。与自组网相同的就是多跳蜂窝网可以通过其他节点连接到附近的其他基站，不同之处在于基站要对多跳连接进行管理。多跳蜂窝网中的基站主要负责管理系统，维持系统的稳定性及可靠性。用户终端设备在多跳蜂窝网中可能会作为中继，同时还要周期地向基站发送自己及周边用户终端设备的动态拓扑信息，基站就通过收集这些信息获得网络的动态拓扑信息。与传统的蜂窝网及自组网相比，多跳蜂窝网具有很多优点。将多跳蜂窝网的[18]优点总结如下：（1）与传统蜂窝网相比，多跳蜂窝网中收发两点之间的距离可能会短一些，[19]因此多跳蜂窝网能够提供更多的系统容量。（2）多跳蜂窝网中，移动终端不但可以与基站直接建立连接，还可以通过多跳的方式利用中继与基站连接，也可以通过其他节点连接到附近的其他基站，因此信道选择变得更加灵活。（3）由于多跳蜂窝网中收发两点之间的距离较短，而且可以动态改变网络结构，使得传统蜂窝网中建筑物阻挡的问题得以解决。（4）传统蜂窝网在通信时，发射功率在环境复杂度高时，与传输距离的四次方成正比，而在多跳蜂窝网中，发射功率基本上趋近于传输距离的平方，同时大量视距信道的引入使深度衰落大大的减小了。因此，在发射功率方面，多跳蜂窝网络有很大的优势。（5）大量视距信道的引入不仅能够使发射功率降低，同时对其他终端的干扰也会降低。（6）发射功率的降低可以使多跳蜂窝网中不同终端在通信时对彼此的干扰得以降低，因此在能耗方面也有了较大改善。（7）多跳蜂窝网可以用较少的基站提供与传统蜂窝网一样的服务范围，多跳蜂窝网基站的服务范围是综合考虑动态总业务量以及用户数决定的。（8）与传统蜂窝网相比，多跳蜂窝网不需要加入新的微蜂窝，而是通过动态改变系统网络结构，就能为业务繁忙的区域提供服务。（9）多跳蜂窝网中，由于用户终端可以作为中继使用，使得多个信道可以同时进行信息传输，从而使空间复用得到新的实现，进而极大地提升了系统的容量。（10）多跳蜂窝网中使用用户终端及站点作为中继，通过间接与基站建立连接的方式解决了传统蜂窝网中存在盲点的问题。10 第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究（11）在用户密集分布的网络拓扑情况下，多跳蜂窝网能够更好地进行处理，同时还能够利用这种情况来提高网络的容量以及每个用户的通信质量。（12）在多跳蜂窝网中，空间分集和复用得到了更好的利用，方向性天线也[20]能够更好地发挥其作用，同时还能够获得更大的收益。（13）多跳蜂窝网在增加系统网路容量、高效地使用资源的同时，还能够保证整个网络中的公平性是一致的。（14）在多跳蜂窝网中采用了协作分集的空间分集方案，通过协作分集，终[21]端用户之间可以相互为对方传送一些信息，实现双赢的局面。2.1.2认知无线电定义及其概念模型认知无线电的概念最早是由Mitola博士于1999年提出的，认知无线电技术将认知功能、界面以及应用软件等功能进行了结合，是一种软件无线电，Mitola博士认为认知无线电能够智能地侦测用户的通信需求，并能够为个人无线数字助理提供相应的无线电资源。FCC也定义了认知无线电技术。FCC将认知无线电定义为一种可通过与其[22]运行环境交互而改变其发射机参数的无线电。ITUWP8A将认知无线电定义为通过感知或了解其操作环境进行动态地调[23]整其操作参数的无线电或者系统。Mitola博士认为认知无线电是一种软件无线电，但是JohnNotor却认为认知无线电既不是软件无线电的发展，也不是必须由软件无线电来实现，认知无线电[24]与软件无线电之间是重叠的关系。总的来说，认知无线电不但具有检测、适应、学习、机器推理等一些性能，[22]还具有最优化、多任务以及并发处理应用的相关性能。认知无线电可以进行快速的频谱搜索，根据其操作环境作出快速的反应，对功率进行控制；与多种无线电技术可以进行协作；对于高层上的频谱也具有相关的谈判协议；允许同时发生多个无线电链路；可以任意的转向其他可用的信道；通过信道共享以及功率控制来实现不同网络之间的频谱共享；通过智能地、自适应地进行自身参数调整可以获得最好的吞吐量；通过自适应天线导向进而集中发射功率，使接收信号强度最[24、25]大化。不同的认知无线电概念模型从不同的角度展现了认知无线电的相关特性，接下来讨论三种认知无线电的概念模型。首先是Mitola博士提出的概念模型，如图2-2所示。Mitola博士认为认知无[26]线电是软件无线电的智能化，通过其提出的概念模型进行了讨论。该概念模型由硬件部分和软件部分组成，其中软件部分包括基本软件和智能软件，硬件部分包括天线、射频、信息安全模块、基带处理模块、调制解调器以及用户接口等最11 北京工业大学工学硕士学位论文基本的软件无线电体系结构。RKRL框架基于模型的推理认知模型平衡模型天线射频调制解调器信息安全模块变量绑定用户接口基带处理模块软件无线电软件模块软件部分调制解调器、平衡器等协议栈、控制器„„硬件部分天线射频调制解调器信息安全模块基带处理模块用户接口[26]图2-2Mitola博士提出的认知无线电概念模型Figure2-2TheconceptmodelofcognitiveradioproposedbyDrMitola其次，维吉尼亚工学院对于认知无线电提出的一种概念模型如图2-3所示。认知模块获得来自发射机、接收机和信道的相关参数，并根据这些信息以及之前的信息计算出一个最优的参数，再将这一参数传送给发射机、接收机和信道，进而改变其参数。无线电发射机信道统计信息无线电接收机旧的特征参数旧的操旧的操作参数作参数新的新的认知引擎操作操作参数参数最优化参数无线电参数[27]图2-3维吉尼亚工学院提出的认知无线电概念模型Figure2-3TheconceptmodelofcognitiveradioproposedbyViginiaTech最后，CRWG提出的认知无线电模型是将认知无线电与OSI模型相结合，如图2-4所示。在CRWG的模型中，OSI的各个层都要受到认知引擎的控制以及相互之间的影响。模型中引入策略引擎，策略引擎的作用内容包括环境领域、电台领域、操作领域、社会领域以及用户领域五个领域，作用于认知引擎。12 第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究应用层QoS数据速率网络层网络交联确认MAC认知引擎策略引擎物理层资源检测波形库硬件检测[23]图2-4CRWG提出的认知无线电概念模型Figure2-4TheconceptmodelofcognitiveradioproposedbyCRWG2.1.3多跳认知蜂窝网络体系结构多跳认知蜂窝网络是在多跳蜂窝网络的基础上引入了认知网络的功能，网络中的认知用户可以进行频谱感知，整个网络的控制及管理都是由一个集中的设备负责。多跳认知蜂窝网络的系统结构实例图如图2-5所示。Internet图2-5多跳认知蜂窝网络的系统实例模型Figure2-5Thesysteminstancemodelofmultiplecognitivecellularnetworks在图2-5所示的系统中有两类用户——主用户及次用户。主用户具有多套独立的收发设备，可以接入到其他相邻网络中，同时在不同的网络中进行并发传输。次用户只能在其所在的网络中进行传输，如果次用户想要使用相邻其他的网络资源，需要对想要使用的网络进行认知，再对想要接入的网络中的主用户没有影响13 北京工业大学工学硕士学位论文的前提下可以接入到该网络中。如图2-5所示的多跳认知蜂窝网络具有以下特点：（1）认知用户是蜂窝网络中的主用户，其可以在一定条件下接入多个蜂窝网络中，使用多个网络中的资源；（2）由于认知用户可以接入多个不同的网络中，在资源检测时要针对不同类型的网络进行检测，不再是单一的检测频谱资源；（3）认知用户同时接入多个不同的蜂窝网络中后，可以进行同时并发传输，利用其它网络中的空闲资源高效传输数据；（4）整个网络的控制及管理都是由一个集中的设备负责，有助于资源的统一管理，使主用户及次用户能够高效地利用资源。2.1.4多跳认知蜂窝网络中的频谱感知在多跳认知网络蜂窝网络中，通过协作频谱感知，采用多簇检测的方式来对[28]主用户进行检测。将多跳认知网络中的感知节点进行分簇，再将这些感知簇进行分级，主要依据距离进行划分。每个簇中只有一个簇头可以获得认知用户的感知信息，不同等级的簇头会将感知信息传送到融合中心。[28]多簇检测的频谱感知方法主要有4个实现步骤：（1）簇内感知。在每个簇内的认知用户要在规定的时间内完成对于频谱的感知任务，收集相关频谱信息。（2）簇头融合。每个簇内的认知用户在这一阶段将自己所感知到的频谱信息传送给簇内的簇头，簇头根据认知用户传送的感知信息进行判断。（3）簇头间信息编码。每个簇头融合本簇内的感知信息后，将这些信息与相邻的同等级的簇头的信息进行编码，之后再将这些信息传送至上一级簇头，再由上一级簇头继续向上级传送，直至经感知信息传送到融合中心。（4）信息融合。融合中心将获得的编码后的感知信息进行解码，再根据感知信息进行融合判断，进而获得最优的判断结果。通过这种多簇检测方法可以将网络中的空闲频谱有效地检测出来，再经过融合中心的最优判断，可以将空闲频谱高效地分配到各个簇进行使用。2.1.5动态频谱分配动态频谱分配需要通过对频谱的相关特性进行感知，并根据用户的需求为用户分配最符合其要求的频谱进行使用。动态频谱分配主要分为两步——频谱分析和频谱决策。频谱分析是通过感知频谱来对频谱进行分析，以获得其特性信息，保证分配的合理性。频谱决策是根据用户的需求来选择频谱需要满足的参数，再根据感知到的频谱信息，从中选出一个最合适的频谱资源分配给用户。14 第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究动态频谱分配主要是在发射端来执行，通过自适应策略高效地使用频谱资源。通过动态频谱分配，可以提高无线频谱资源使用的灵活性以及信道的使用能量，使网络中的主用户和次用户在不产生冲突的情况下共享频谱资源。动态频谱分配的原则主要有：（1）提高系统性能；（2）保证频谱选择的灵活性；（3）减小系统开销和机选复杂度。动态频谱分配包括了不仅包括了频谱分配，还辨认并描述了频谱，同时还检测了频谱的持续时间。在分配过程中考虑到了用户对于QoS的需求以及其接收[29]能力，动态频谱分配的流程图如图2-6所示。频谱监测确认估计频谱可用性持续时间确认已有的服务使用的“代价”有多少用户所需带宽分配所需的持续时间目的地址消息冲突分析频谱是否还在使用使用可能的冲突事件处理使用持续释放分析DSM事件时间的差异[29]图2-6动态频谱分配流程图Figure2-6Theflowchartofdynamicspectrumallocation2.2无线虚拟网络虚拟化技术在有线网络中的实现使得人们对于无线网络中的虚拟化技术充满期待。有线网络虚拟化的研究已经开展了很多年，在该问题上已有大量的研究成果，然而无线网络的虚拟化才刚刚开始进行研究，很多问题都急待解决。无线网络虚拟化技术会对现今无线网络面临的技术问题产生巨大的影响，接下来将对无线网络虚拟化技术进行研究讨论。2.2.1无线网络虚拟化的定义虚拟化技术是一种能够将一台实体计算机通过软件抽象，变为多台虚拟的逻辑计算机的技术。通过虚拟化技术，可以在一台实体计算机上同时运行多个逻辑计算机，且每个逻辑计算机可以使用自己的操作系统，相互之间没有影响，能够极度提高计算机的使用效率及工作效率。虚拟化技术通过使用软件定义的方法来划分IT资源，实现动态分配IT资源，提高了其调度的灵活性及利用率，使IT资源能够实现跨域共享，满足各行各业的应用需求。虚拟化技术与多任务及超线15 北京工业大学工学硕士学位论文程技术是不同的，它并不是在一个操作系统中同时运行多个程序，而是在一台计算机上可以同时运行多个操作系统，且在每个操作系统上都能够独立地运行多个程序。网络虚拟化一般是指虚拟专用网络（VirtualPrivateNetwork，VPN），是通过对网络连接进行抽象化，使远程用户可以访问内部网络，在保护IT环境的前提下，既能防止网络威胁，又能够使用户快速安全的访问程序和数据。常见的网络虚拟化形式有：（1）基于互联设备的虚拟化。对称的基于互联设备的虚拟化方法会使控制信息和数据在同一条通道上传输；不对称的基于互联设备的虚拟化方法使控制信息和数据在不同的通道上传输。对称方法的优势是在使用多重设备管理时，如果一个设备发生了故障，可以很容易的实现故障替换。相比对称的方法而言，非对称方法由于控制信息和数据是在不同通道上传输，因此更具有可扩展性。基于互联设备虚拟化方法的优势在于容易使用、设备便宜，但是它也存在着一些缺陷，这种方法依然是在一个主机的代理软件或者主机的适配器上运行的，这就会导致一旦主机产生故障，会访问到不被保护的数据，而且在不同的操作系统中无法实现互操作性。（2）基于路由器的虚拟化。基于路由器的虚拟化方法是将路由器的固件上进行虚拟化，实现其存储虚拟化功能。应用这种方法，路由器放置在主机与存储网络之间的数据通道中，以获取所有的主机到存储系统的命令。将虚拟化技术应用到无线网络中，使无线网络虚拟化技术实现，能够有效地对异构无线网络进行管理。无线网络虚拟化技术通过对网络资源进行软件抽象，使其从硬件中解耦出来，在上层对这些资源进行统一的管理，通过这种方法能够降低网络管理费用，提高了网络管控效率。通过虚拟化技术，能够使无线网络中的实体资源经过软件定义划分为多个独立的逻辑主体，使用户在使用时感觉自己是在使用一个单独的资源，进而满足了用户的QoS需求。2.2.2无线网络虚拟化的架构在有线网络中，网络虚拟化技术已经得到了很多的应用——虚拟局域网（VLAN）、多标签协议交换（WPLS）、异步传输模式（ATM）以及软件定义网络（SDN）。这些技术都是针对有线网络，在同一物理基础设施上进行虚拟化，将这些基础设施划分为多个相互独立的虚拟网络。但这些技术没有考虑到无线网络中信道的不确定性、功率控制问题等问题，正是由于无线网络中存在着这些问题，这些有线网络中的虚拟化技术无法直接应用到无线网络中。现有一些无线虚拟网络的架构研究，接下来进行讨论。国际标准化组织3GPP的系统架构工作组针对接入网虚拟化问题进行了研究，16 第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究已有无线接入网共享增强（RSE）架构，在此架构中定义了多个运营商可以共享[30][31]无线接入网资源。无线接入网虚拟化框架如图2-7所示。GWCN使多个运营商可以共享移动性管理实体（MME），进而使得共享移动性管理及承载管理等功能能够实现。MOCN中各个运营商只能够在eNodeB层实现资源共享，因为他们都采用各自的核心网。网关核心网多运营商核心网运营商A运营商B运营商A运营商B核心网核心网核心网核心网运营商A运营商B共享移动性管理实体移动性移动性管理实体管理实体S1接口[31]图2-7接入网虚拟化框架Figure2-7Theframeworkofvirtualaccessnetwork国际标准化组织3GPP研究接入网络虚拟化框架的主要目的包括以下几方面：（1）使多个网络实体之间根据现有相关的共享协议及政策进行无线网络资源共享；（2）使无线接入资源能够在不同的共享场景中得到高效地使用；（3）能够将无线接入资源在更细的时间粒度下灵活且动态的进行分配；（4）在现有相关的共享协议及政策的支持下高效地解决网络过载问题。针对上述目标，国际标准化组织3GPP所提出的RSE架构可以实现以下几种功能：（1）拥有无线接入网的一方不仅要允许其他运营商获得共享的无线接入网络资源，还要将网络资源的操作管理及维护状态信息的权利分配给这些运营商；（2）参与到共享接入网资源的运营商可以根据自身的需求提出不同的接入网络资源需求；（3）拥有无线接入网资源的一方要根据参与到共享接入网资源的运营商的需求，将其接入到符合其所需的无线接入网络资源中，满足其QoS的需求；（4）拥有无线接入网资源的一方不仅是负责将接入网络资源分配给各个参与的运营商，还要时刻检测网络的负载情况，要保证负载均衡。除了接入网虚拟化已经提出了架构以外，针对无线网络的全网络虚拟化架构也有了一定的研究。无线全网络虚拟化后，原网络中拥有的资源以及可以实现的17 北京工业大学工学硕士学位论文功能由虚拟化后的网络中的基础设施供应商（InP）和服务供应商（SP）拥有和完成。基础设施供应商拥有基础设施资源，并且这些资源需要虚拟化为多个资源，服务供应商会根据用户的需求向基础设施供应商请求使用资源。无线网络全网络虚拟化架构如图2-8所示。基础基础资源管理实体供应商1供应商2基础设施基础设施供应商1供应商2基站A基站C基站B基站D[31]图2-8无线网络全网虚拟化架构Figure2-8Theframeworkofwirelessnetworkentirenetworkvirtualization如图2-8所示，基站A与基站C属于基础设施供应商1，基站B与基站D属于基础设施供应商2，两个基础设施供应商的资源都通过资源管理实体进行管理分配。通过这种方式，可以使服务供应商获得最优资源，并且能够使其使用资源的代价最小化，收益最大化。2.2.3资源虚拟化无线网络中的资源与有线网络中不同，在传输过程中易受到周围环境的影响，造成信号衰弱。为了保证目标节点能够准确接收到发送节点发送的信息，在无线网络中，虚拟化后的节点和链路也需要做出相应的处理来避免彼此之间的干扰。因此，无线网络中对资源虚拟化还是有一定的难度。在对无线网络中的资源进行虚拟化时，主要需要考虑到使网络底层各个维度的资源与网络需求匹配起来的问题。网络底层的资源可以根据时间、空间、频率等因素分为多个正交的维度，同样，资源需求也可以根据维度进行划分。并且，底层资源的维度必须大于资源需求的维度。2.2.4关键技术针对无线网络虚拟化中的关键技术，接下来主要讨论基站虚拟化技术以及动态频谱管理技术。基站虚拟化主要是根据基站所负责的服务区的资源需求，通过基站集中放置、基站间协作以及分布式天线来进行为基站分配无线资源，并通过配置相关系统参18 第2章多跳认知蜂窝网络、无线虚拟化网络及其资源管理研究数的方式使基站的处理能力、系统性能以及工作效率得以提升，同时使基站的成本得到大幅度降低。通过网络虚拟底层（NVS）可以对基站虚拟化进行实现，NVS具有相应的隔离性，能够提供定制化服务，同时还能够使多个网络实体之间实现资源共享。NVS具有虚拟网络调度和流调度两层，虚拟网络调度负责使各个虚拟网络之间的资源能够具有独立性，各个虚拟网络之间没有干扰；流调度使流信息的传输在各个虚拟网络中能够高效地进行。NVS在运行过程中会保证无线网络资源的最优化分配，使系统效用及收益都能够最大化，同时还会保证网络中QoS的需求。通过基站集中化放置以及分布式天线技术也能够使基站虚拟化得以实现，将原本分布式的基站进行统一的管理，提高基站资源的利用率，降低成本以及功耗。无线虚拟化的另一个关键技术就是动态频谱管理，认知无线电是一种很好的动态频谱管理分配技术。动态频谱管理可以分为集中式动态频谱管理以及分布式动态频谱管理，基于这两种动态频谱管理方法，能够实现无线网络中频谱资源的共享更加灵活，并且能够满足用户的需求。2.2.5面临的挑战由于无线网络虚拟化与有线网络虚拟化相比更加的复杂，不确定因素更多，导致无线网络虚拟化目前仍面临着许多的挑战。（1）虚拟网络之间的隔离问题。无线网络在通信过程中各个节点及链路之间的相互干扰更加严重也对干扰更加敏感。通过动态频谱管理的方法，可以使信道资源在频域和时域上实现隔离，从而减少一定的干扰。（2）接口问题。在有线网络虚拟中，虚拟节点或虚拟链路能够通过某种标准化的语言或接口来反应它们的需求。但在无线网络虚拟中，SP要能够从一个或多个InP处获取频谱资源。并且，SP所获取的频谱资源可能对应多种多样的无线接入技术。所以一个被妥善定义的、标准化的接口，对于InP理解SP的访问需求是十分重要的。此外，在用户与SP之间，标准化接口也是用户清晰、明确的描述其访问需求的重要因素。（3）资源发现问题。各InP或Hypervisor应首先通过协作的方式掌握系统中所有可供分配的频谱资源，然后再按需分配。资源的发现与分配带来了另一个问题，即时间间隔。显而易见，如果资源发现与资源分配间隔的时间过短，系统的整体开销将会非常巨大；但如果时间过长，系统可能会回退到传统固定模式。（4）资源分配问题。有线虚拟网络中一个众所周知的问题是如何在物理网[32]络之上嵌入一个虚拟网络，这对于无线网络来讲也是关键的。将资源或需求作为约束条件，虚拟网络的嵌入问题可以简化为NP-hard问题。如果按市场导向分析，对于每个InP来讲，虚拟网路的嵌入问题实际上可认为是以InP的有限频谱19 北京工业大学工学硕士学位论文[33]资源和SP的需求为约束条件，实现收益最大化的优化问题。当然，更多的影响因素应该被纳入考虑范围，例如运营商的运营成本、能耗、InP的定价政策等。（5）移动管理问题。移动用户应当能够在SP的虚拟网络中无缝切换。当然一个可能的更好的方案是用户以更好的QoS或更低的开销来自由选择SP。而无线网络虚拟技术则通过基础设施共享和频谱共享，以及相应的协议来支持用户可以访问绝大多数的SP虚拟网络。2.3本章小结本章分别讨论了多跳认知蜂窝网络和无线虚拟网络。针对多跳认知蜂窝网络，先研究了多跳蜂窝网络，之后讨论了多跳认知蜂窝网络的体系结构、频谱感知及其动态频谱分配问题。针对无线虚拟网络，先讨论了无线网络虚拟化的定义及其架构，又从无线虚拟网络中的资源虚拟化、关键技术方面对无线网络虚拟化进行了研究，最后讨论了无线网络虚拟化现阶段面临的挑战。本章是论文工作的基础，为后续章节中的相关问题和研究做了铺垫。20 第3章部分可观测马尔可夫决策过程第3章部分可观测马尔可夫决策过程本章对应用到的两种模型进行概述总结。首先研究马尔可夫决策过程（MarkovDecisionProcess,MDP），分别从其基本模型、最优策略、值函数及典型算法等方面进行讨论，其次在马尔可夫决策过程的基础上讨论部分可观测马尔可夫过程(PartiallyObservableMarkovDecisionProcess,POMDP)，并从其基本模型、策略、值函数及算法等方面进行讨论。重点对部分可观测马尔可夫决策过程模型进行研究，讨论其最优策略以及如何求解。3.1马尔可夫决策过程马尔可夫决策过程是以马尔可夫过程作为理论依据的随机动态系统的最优决策过程，用于研究、控制并影响随机系统未来的发展，是一种有效的解决决策、控制、优化问题的工具。马尔可夫决策过程的基本思想源于50年代R.贝尔曼对于动态规划的研究以及L.S.沙普利对于随机对策的研究。1965年，布莱克韦尔的研究工作进一步推动了马尔可夫决策过程的发展。马尔可夫决策过程针对可进行周期或连续观察的随机动态系统进行研究，目的在于将其进行最优化处理。在每个时刻可以得到观察到的状态信息，根据这些状态信息从决策集合中选出一个用于当前时刻的决策，通过这个决策就可以决定系统的转移规律。通过在每个时刻选出决策，使系统在运行的全部过程中达到最优化。随机序贯决策是一种用于随机性或不确定性动态系统最优化的决策方法，其主要有三大特点，一是适用的系统的状态是与时间有关的，可以对其进行周期或连续的观察；二是每个时刻都可以根据之前的状态记录和新观察到的状态信息进[34]行决策选择；三是下一时刻系统的状态是不确定的。通过随机序贯决策，可以得到长远利益最优的结果，获得直接回报与长远利益的折中效果。当决策者要做出决策时，不仅需要考虑到直接回报，还要考虑到长远利益，有时直接回报不高但是却可以有一个较好的长远利益，因此，作为决策者就需要做出使直接回报和长远利益获得折中效果的决策。使用马尔可夫决策过程对此类[35]问题进行模拟，可以更加容易解决此类问题。马尔可夫决策过程是由状态集合、动作集合、转移概率和直接收益组成，下面进行详细讨论。3.1.1基本模型马尔可夫决策过程适用的系统具有状态转移无后效性、状态转移具有不确定21 北京工业大学工学硕士学位论文性以及状态可以完全观察到的特点，其包含了有限的状态、有限的动作以及与每个动作和状态相对应的收益。马尔可夫决策过程是由四元组SAPR,,,模型组成的，图3-1是马尔可夫决策过程的一个例子。p1S,r1Sp12,r12p11,r11p2S,r2SpSS,rSS12Sp22,r22p22,r22pS2,rS2p21,r21pS1,rS1[36]图3-1马尔可夫决策过程Figure3-1MarkovDecisionProcessS表示了状态的有限集合，Si用于表示状态i。每个状态都代表了系统当前所处的环境信息，将处于连续空间的状态信息离散化有助于处理。A表示了动作的有限集合，Ai用于表示动作i。在每个决策时刻都需要根据状态信息采取相应的动作。P表示转移概率，是在采取动作之后产生的状态转移，每个状态在不同的动a作的作用下会产生不同的变化，转移概率将这种关系系统的表示出来。pij表示了在动作a的作用下，状态i转移到状态j的概率。R表示了直接收益，用来作为衡量选择的动作产生的收益与其他动作的区别，并且获得直接收益就代表了当前选择的动作产生效果。当采取动作a，使状态i转a移到状态j时获得的直接收益用rij来表示。3.1.2最优策略马尔可夫决策过程问题的解称为策略，其实质是状态集合到动作集合的一个映射。在整个过程中，每个需要作出决策的时刻，决策者可以观察到当前时刻系统的状态信息，从而根据状态信息执行策略对应的动作，进而使系统进入到下一状态，重复这个过程就可以解决问题。从不同的角度出发，可以将策略分为以下几类：（1）确定性策略：每个状态下所采取的动作是指定的。随机性策略：每个状态下所采取的动作是从一个有限动作集合中指定一个动作。（2）静态性策略：与时间无关，只与状态信息有关。非静态性策略：不仅与状态信息有关，还与时间有关。22 第3章部分可观测马尔可夫决策过程（3）无记忆性策略：根据策略所选择的动作与之前的历史记录无关。K次记忆策略：所选择的动作与之前K次选择的历史记录有关。所有的策略都是根据期望获得更好的长期收益为目标而进行的。Rt表示t时刻可以获得的直接收益，那么某个阶段期望获得的最大长期收益可以表示为k1maxERt，考虑到整个过程的总收益，需要引入折扣因子，因此一段时间t0的总收益可以表示为k1t（3-1）maxERtt0通过公式3-1可以表明，马尔可夫决策过程的目的在于找到一个使带有衰减因子的长期收益最大化的策略，将这个策略称为最优策略。3.1.3值函数为了解决马尔可夫决策过程最优策略问题，获得一个长期最大收益，需要利用值函数来计算从状态到动作的映射，从而可以得到每个状态下应该采取的最优动作。对于无限阶段的马尔可夫决策过程，定义值函数V，用来验证策略的有效性。当采用策略，并处于状态s时可以获得的期望收益为VsEtRst,st，（3-2）t0t其中s表示t时刻的状态且01。采用递归形式可以表示为VsRs,,sTsssV''s（3-3）sS'其中Tsss,'是指在采取策略时系统状态的转移概率。值函数V实质上是一系列线性方程的唯一公共解，也将值函数称为评价函数（evaluationfunction）。k对于有限阶段的马尔可夫决策过程，考虑共有K个阶段。定义值函数V，k表示在K个阶段内的累计期望收益，K个阶段的决策为01,,,k,,K。在k时刻由当前状态、下一时刻状态以及根据当前时刻的策略所选择的动作可k以获得的收益表示为VkpkkssiirVk1skkijij1j，（3-4）其中，当阶段有限不存在衰减时，1。求解马尔可夫决策过程问题就是要求得整个过程的最优策略，即无论是无限23 北京工业大学工学硕士学位论文阶段马尔可夫决策过程还是有限阶段马尔可夫决策过程，通过计算值函数使其获得最大值就可以将马尔可夫决策过程问题解决。3.1.4MDP典型算法针对马尔可夫决策过程问题的求解，按照是否求解全部状态空间来划分可以分为有值迭代和策略迭代；按照离线或在线划分还有实时算法。下面对几种典型的MDP算法进行讨论。策略迭代：该方法是动态规划中求解最优策略的基本方法之一，这种方法主要有两个步骤——求值计算和策略改进，在方法的使用过程中，通过动态规划的基本方程，交替进行求值计算和策略改进两个步骤，最终逐步求得一组最优的策略序列。值迭代：该方法也是动态规划中求解最优策略的一种方法。在值迭代方法中，策略不能够用显示来表示。在使用过程中，通过动态规划的Bellman公式进行迭代更新，从而使值函数得到改进。结合与或图的搜索：该方法一种前向搜索类算法，将与或图定义为一个超图（hypergraph），这种方法可以有效地应用于解决马尔可夫决策过程问题。实时动态规划算法：该方法也是基于前向搜索技术，将算法计算过程组织成为一组试验，每次试验的每一个步骤采取的动作都是根据一步前瞻搜索选择得出的，在采取动作之后对状态信息进行更新，当达到预定目标时试验结束。这种算法的特征就在于在更新状态信息时，只在贪婪策略时采取的动作时才进行更新，节省了大量不必要的计算。3.2部分可观测马尔可夫决策过程马尔可夫决策过程也可以称为完全可观测马尔可夫决策过程（completelyobservableMarkovDecisionProcess，CO-MDP），这是因为马尔可夫决策过程中的状态信息在任何时间都是可以完全观测的。对于CO-MDP来说，针对每个状态选取策略这一解决过程要求系统的所有状态信息在任何时间都能够完全得到。但是在实际问题中，很多系统的状态信息不是完全可以知道的，只有部分状态信息是已知的，其他信息不能够直接得到。针对这种系统，CO-MDP就不能够用来解决相关的问题，需要增加部分可观测性，加入了部分可观测的马尔可夫决策过程就成为部分可观测马尔可夫决策过程。部分可观测马尔可夫决策过程是在马尔可夫决策过程的基础上提出来的，它与马尔可夫决策过程比较相近，都是包含了有限集的状态、有限集的动作、转移概率以及直接收益。在部分可观测马尔可夫决策过程中，动作对于状态信息的影24 第3章部分可观测马尔可夫决策过程响也像在马尔可夫决策过程中一样。部分可观测马尔可夫决策过程与马尔可夫决策过程的唯一区别就在于每一时刻系统的状态是否完全可知。在部分可观测马尔可夫决策过程模型中加入了一个有限集的观测来代替可以直接得到状态信息。通过对于状态信息的观测，可以得到系统所处的状态的提示。这种观测是有一定的概率性的，所以还需要指定一个观测函数。通过观测函数，可以知道在当前模型中对于每个状态的观测的概率，并且也可以将观测也可受到动作的影响。尽管部分可观测马尔可夫决策过程在实质上还是马尔可夫过程，但是由于不能直接获得系统的状态信息，因此做出的决策需要依据整个历史过程记录，这使部分可观测马尔可夫决策过程成为了一个不具有马尔可夫链性质的过程。在给定的时间点上，历史信息包括了起始的状态信息、所有已执行的操作以及所有的观测。事实证明，只要能够保持完整的历史信息的完整，所有的状态维持一个概率分布也可以提供相应的信息。在一个CO-MDP中，由于CO-MDP是可以完全得到所有状态信息，在每次选取动作后需要追踪当前时刻的状态，并且将其进行更新，这一任务非常容易就可以完成。在POMDP中，需要保持所有状态的概率分布，当执行了一个动作并且进行一次观测后，需要更新概率分布——转移概率和观测概率。3.2.1基本模型部分可观测马尔可夫决策过程是由六元组SATR,,,,,O模型组成的，其中SATR,,,的含义与马尔可夫决策过程基本相同。S表示了状态的有限集合，Si用于表示状态i。每个状态都代表了系统当前所处的环境信息，将处于连续空间的状态信息离散化有助于处理。A表示了动作的有限集合，Ai用于表示动作i。在每个决策时刻都需要根据状态信息采取相应的动作。T表示转移概率，是在采取动作之后产生的状态转移，每个状态在不同的动a作的作用下会产生不同的变化，转移概率将这种关系系统的表示出来。pij表示了在动作a的作用下，状态i转移到状态j的概率。R表示了直接收益，用来作为衡量选择的动作产生的收益与其他动作的区别，并且获得直接收益就代表了当前选择的动作产生效果。当采取动作a，使状态i转a移到状态j时获得的直接收益用rij来表示。表示了观测的有限集合，每个观测可以得到的状态信息是不完全相同的。O表示了条件观测概率的有限集合。在每个时间段，系统的环境都处于某种状态sS，决策者根据这个状态信25 北京工业大学工学硕士学位论文息采取一个动作'aA，通过这个动作的影响，系统的状态会以概率Tssa|,转移到状态''s。在进行这一过程的同时，决策者会根据具有概率Oosa|,的系统的新状态获得一个观测o，并可以获得一个收益Rsa,，之后重复这一过程。在每一个时刻，决策者做出动作选择的目标是最大化期望长期收益。期望的长期收益可以表示为t，其中Ert为折扣因子，rt表示在t时刻的直接收益。折扣t0因子决定了决策者对直接收益与长期收益的权衡，当0时，决策者只关心所选择的动作是否能够获得最大的期望直接收益，当1时，决策者只关注能否获得最大的期望长期收益。部分可观测马尔可夫决策过程如图3-2所示下：图3-2POMDP动态模型Figure3-2POMDPDynamicModel3.2.2状态信息在部分可观测马尔可夫决策过程中，状态信息不是完全已知的，决策者只能通过观测来获得状态信息。因此决策者需要通过采取动作a和观测o来更新其信念信息。由于系统的状态是具有马尔可夫链性质的，所以要得到一个信念状态信息，需要知道之前的信念状态信息、采取的动作以及当前时刻的观测。将信念状'态信息表示为bbao,,，接下来描述一下信念状态信息的计算方法。在系统转移到下一个状态之后，决策者获得概率为'Oosa|,的观测o。将b定义为状态空间S的概率分布，bs表示了系统处在状态s的概率。给出bs之后，选择动作a和观测o，那么可以得到bs''Oosa|,'Tssabs'|,（3-5）sS其中1/Proba|,，Proba|,的计算可以表示为Pr|,obaOosa|,''Tssa|,（3-6）sS'sS通过计算出信念状态信息，就可以将部分可观测马尔可夫决策过程问题转变为马尔可夫决策过程问题，经转变后，我们可以将部分可观测马尔可夫决策过程26 第3章部分可观测马尔可夫决策过程建模为信念马尔可夫决策过程。信念马尔可夫决策过程可以由四元组BA,,,r模型表示。B表示了观测部分可观测马尔可夫决策过程的状态后得到的信念状态信息集合。A依然表示动作集合，与原始部分可观测马尔可夫决策过程中的动作集合相同。表示了信念状态的转移函数。r表示了基于信念状态信息的收益函数。其中和r需要根据原始的部分可观测马尔可夫决策过程进行转变，可以表示为bab,,''Prbbao|,,Proab|,（3-7）oPrbbao'|,,表示为其中，Proab|,由公式（3-6）可以求得，而1如果通过bao,,以获得可信任的更新bPrbbao,,（3-8）0其他信念马尔可夫决策过程的收益函数r是期望收益，在信念状态分布基础上通过原始部分可观测马尔可夫决策过程的收益函数可以表示为r,babsRsa,（3-9）sS信念马尔可夫决策过程不再是原始的部分可观测马尔可夫决策过程，因为在任何给定的时间点，决策者都知道信念状态信息。同时，信念马尔可夫决策过程与马尔可夫决策过程也不相同，马尔可夫决策过程的每一个动作只能用于相应的一个状态，而在信念马尔可夫决策过程中，所有的信念状态允许使用所有的动作，因为每个状态都有一定的概率被认为是信念状态信息。3.2.3策略和值函数策略为每一个信念b制定了一个动作ab，这里假设目标为最大化期望的总折扣收益。当R定义为一种费用时，目标就变为使希望费用最小化。起始信念状态为b时，策略的期望收益表示为0Vbttrba,ERsa,|,b00tttttt00（3-10）其中，为折扣因子且1。通过最优化长期收益可以获得最优策略，argmaxVb（3-11）027 北京工业大学工学硕士学位论文其中，b是初始的信念状态。0最优策略可以使决策者对于每个信念状态获得最高的期望收益值，用最优值函数*V来代表可获得的最高期望收益。这个值函数可以解决贝尔曼最优方程：Vb**maxrba,Oo|b,aVbao,,（3-12）aAo对于有限阶段的部分可观测马尔可夫决策过程，最优值函数是分段呈线性的并且是凸函数，可以用一组有限的向量来表示。在有限阶段的架构中，设置一组有限的向量可以非常接近值函数*V，并且其形状是凸形，与值函数的性质相对应。3.2.4POMDP算法对于部分可观测马尔可夫决策过程问题的解决方法，大致分为两类——精确[37]算法与近似算法，下面进行归纳总结：（1）精确算法一次合格算法（one-passalgorithm）：one-pass算法是由Sondik首先提出来的，该算法允许起始状态可以是任意的信念状态，并且针对这一个信念状态构造其梯度向量，之后寻找可以使梯度向量成立的信念状态区域。Monahan算法：这一算法相对简单，但是其缺点是只能适用于状态数量较小的部分可观测马尔可夫决策过程问题。线性支撑算法（linearsupportalgorithm）：该算法是由Cheng提出，这种算法与one-pass算法有类似之处。与one-pass算法相比，线性支撑算法的区域边界限制条件更加宽松，并且线性支撑算法会对是否获得所求出的区域内所有信念状态的梯度向量进行判断，如果判断出没有所有信念状态的梯度向量，就将检测出的加入到区域中，使最终获得的区域里有所有的信念状态的梯度向量。目击算法（witnessalgorithm）：该算法与线性支撑算法有一定的相似之处，这种算法没有运用所有区域的节点，而是运用了一种线性规划，以获得不同来源的最优值函数的近似值，这种算法可以减少运算时间，有一定的优势。增量剪枝算法（incrementalpruningalgorithm）：该算法由Zhang和Liu提出，这种算法既具有one-pass算法和Monahan算法直观且易于理解的优点，又具有线性支撑算法和witness算法可以避免产生多余梯度向量的优点，同时，增量剪枝算法还具有较高的计算效率。（2）近似算法网格方法：基于网格点及网格点的值，使用插补-解释（interpolation-extrapolation）规则及有限网格点集合，对于信念状态空间上的每一点的值都可以进行估计，在每一个网格点上都可以构造一个马尔可夫决策过程，该马尔可夫28 第3章部分可观测马尔可夫决策过程决策过程的状态就是该网格点。该方法的重点就在于插补-解释规则的制定以及网格点的选取。有限历史：该方法只根据一部分有限的历史记录，包括之前的动作和观测值来近似得到值函数，将值函数定义为从有限的历史记录到期望累计收益的函数，通过这种方法将部分可观测马尔可夫决策过程转变为一个非马尔可夫决策过程。但这种方法使用时要注意选取的有限长度的历史记录要能够充分估计当前状态的信息，否则这种方法不能得到一个较好的结果。启发式方法：这种方法将部分可观测马尔可夫决策过程假设为马尔可夫决策过程来将最优值函数进行简化，可分为五种方法——MLS（mostlylikelystates）、AV（actionsvoting）、Q_MDP、双重模式控制（dualmodecontrol）及加权熵控制（weightedentropycontrol）。MLS是一种假设系统处于最大可能状态，通过这种方式就可以将部分可观测马尔可夫决策过程转化为马尔可夫决策过程，这种方法还要求未来的动作都依赖于可以完全观测的状态。针对MLS在决策时只使用一个最大可能状态而忽略其他的因素这一缺陷，Simmons等人提出了AV启发式方法，该方法使每个行为对应的一个概率分布。而AV启发式方法存在着没有考虑动作对应的收益问题，因此Q_MDP方法被提出，该方法也是先求解与之对应的马尔可夫决策过程的最优决策。双重模式控制方法弥补了前三种方法在遇到各个信念状态之间概率相差不多时会随意采取决策的缺陷，制定了两个目标——一是为了获得最大收益而采取动作，二是减少信念状态的不确定性。信念状态分解（factoredbeliefstates）：为了使状态变量能够更加直观地表示出来，将状态变量设置为布尔型变量，这样每种状态只能是或真或伪，假设一个m系统中有m个布尔型变量，那么这个系统中的总的状态数为N2，可知系统中状态数量是根据状态变量数量呈指数增长的，这样使用状态变量描述部分可观测马尔可夫决策过程的方法就称为信念状态分解。神经网络：Bertsekas和Tsitsiklis提出了通过使用神经动态规划（neuro-dynamicprogramming）方法来近似值函数，主要是通过对具有大状态空间和连续状态空间的马尔可夫决策过程的值函数进行学习。Liu和Mitchell还提出了一种前馈神经网络（feed-forwardneuralnetwork）方法，通过两个递归神经网络来对信念状态进行充分的统计。不论是部分可观测马尔可夫决策过程的精确算法还是近似算法都不能应用于所有类型的部分可观测马尔可夫决策过程模型，未来的算法研究不仅要研究算法的高效性，还要使算法尽可能的适用于多种类型的部分可观测马尔可夫决策过程模型。29 北京工业大学工学硕士学位论文3.3本章小结本章首先研究了马尔可夫决策过程的四元组SAPR,,,模型，根据每一时刻的状态选取相应的动作可以使决策者权衡直接收益与长期收益获得最高的期望总收益。在马尔可夫决策过程的基础上对部分可观测马尔可夫决策过程进行研究，部分可观测马尔可夫决策过程是一个六元组SATR,,,,,O模型，其与马尔可夫决策过程最大的区别在于系统的状态信息是不能够完全确定的，通过引入观测来解决这一问题。实际问题中应用部分可观测马尔可夫决策过程模型的情况更多，使对于部分可观测马尔可夫决策过程模型的研究更加有意义。本章的最后对解决部分可观测马尔可夫决策过程问题的算法进行分类总结概括。30 第4章多跳认知蜂窝网络中的资源管理第4章多跳认知蜂窝网络中的资源管理由于通信业务量的爆发以及用户关注点的转移，有学者提出了以信息为中心的网络来替代传统的基于IP的网络架构，为了支持以信息为中心的传输同时使用从主用户网络中获得的频带资源，本章提出了一种新的以信息为中心的多跳认知蜂窝网络架构，并根据用户的需求采用“主动缓存”方法来缓存高优先权的内容。为了提高缓存内容的命中率，提出了一种基于马尔可夫决策过程动态频谱管理方法，通过缓存数据包降低了信息获取的成本。4.1引言在过去的40年中，传统的基于网络协议的架构获得了极大的成功，但是近年来这种方法无法解决网络负载过重问题，同时也不能适应用户的关注点从传输文件到获得感兴趣的内容的转变。有学者提出以信息为中心的网络架构以解决这一问题，这种架构允许用户关注他们感兴趣的数据，应用空闲网络资源来查找数据的地点并进行传输。网络内嵌缓存也用于以信息为中心的网络中，来缓存之前已经被路由器传递的数据以及减少信息传输延迟。大多数关于以信息为中心的网络的工作都集中于网络架构、缓存管理、路由选择以及命名问题。文献[38]中提出一种“cache-in-the-air”架构来管理现在和未来5G移动网络中的缓存。文献[39]的作者提出了工业控制器局域网架构，用于在自组织网络中配置以信息为中心的网络，讨论了推送式的通信。文献[40]的作者讨论了网络内的缓存管理和以信息为中心的网络的资源管理，以减少缓存冗余以及提高沿着传输路径的内容流动多路技术的公平性。文献[41]考虑到了名称的聚集性，为以信息为中心的网络提出了一种以名称寻址的路由选择方案路由。文献[42]基于用户对于网络非常重要的名称和性能的期望，针对命名考虑了位置和身份问题。除了上文中的关键技术，为了满足快速增长的移动通信量的需求，以信息为中心的网络也面临着频谱资源短缺的问题。目前几乎所有的可用于无线通信的频谱资源已经被消耗殆尽了。另一方面，一些地区的某些时期内许多已授权频谱的利用率非常低。认知无线电技术已经被证实是一种有效的解决方法来处理这一问题，允许认知设备在不妨碍主用户的同时使用这些已授权但是闲置的频谱。研究者已开展了大量关于认知无线电网络的工作。文献[43]的作者讨论了现有的认知无线电和自组织技术的基本原理以及它们目前的研究进度。文献[44]提出了在多跳认知无线电网络设计中存在的一些挑战和问题，尤其是关于媒体访问31 北京工业大学工学硕士学位论文控制层。在文献[45]中针对多跳认知无线电网络提出了一种基于频谱池的资源管理方法，用于提高频谱带宽的利用率。文献[46-48]中，作者介绍了多跳认知蜂窝架构来进一步研究认知无线电网络中的频谱获取和共享问题。一个认知服务供应商和多个认知无线电无线网状网路由器组成一个多跳网络，这个多跳网络有其自己的自有频谱以及合作感知和共享主用户网络已授权的频谱，可为认知用户传输数据包。本章提出一种以信息为中心的多跳认知蜂窝网络架构来解决以信息为中心的网络中的频谱资源问题，这种架构能够有效地利用频谱资源并且减少用户请求数据的响应时间。通过这种架构可实现的目标包括：与传输路由设备中的数据相比，主动推送内容到离移动用户较近的路由器中可以进一步减少用户请求数据的响应时间。Contentdistributionnetwork(CDN)是推送受欢迎的内容至边缘路由器的一个很好的例子，但是在以信息为中心的网络中需要一种更灵活、适应性更强的方法。在推送操作中的时延容忍的缓存数据传输时，可以利用感知频谱来进行低成本的无线传输。对于有延时要求的数据包，这些频谱是不稳定的且不太合适的。但是当主用户网络和认知用户网络的负载都很低时，可以利用空闲的频谱来推送缓存数据。对于频谱管理问题，最优化系统的同时要平衡对参数的估计和建模，这是因为一些参数不能被直接观测到，或者一直处于变化中，因此简单地假设它们的值并用传统的最优化算法不能准确描述出它们的特性。为了利用有限且动态可用的频谱带宽缓存内容最大的期望命中概率，将频谱管理问题建模成为一个带有未知参数的马尔可夫决策过程，再转化为一个部分可观测马尔可夫决策过程以求解此问题。本章提出的方法的主要贡献总结如下：提出了以信息为中心的多跳认知蜂窝网络架构，引入了“以信息为中心”的架构来减少网络负载并描述用户数据的优先权特性。考虑到用户的分布，根据期望的命中概率度量提出了主动缓存，将受欢迎的内容推送到离用户较近的路由器中。提出了动态频谱分配方法来最优匹配最合适的子频带，考虑了未知的、变化的网络参数以及路由器端的队列状态。将频谱分配问题建模成为一个带有未知参数的马尔可夫决策过程，代替了原有的完美参数值的假设。再将其建模成为一个部分可观测马尔可夫决策过程，从而可以采用已有的算法来求解频谱分配问题。本章提出了一种以信息为中心的多跳认知蜂窝网络架构，引入以“信息为中心”的概念以及主动缓存的方法，来实现提高缓存内容的平均命中概率。在以信32 第4章多跳认知蜂窝网络中的资源管理息为中心的多跳认知蜂窝网络中，认知服务供应商收集认知无线电无线网状网路由器的信息，将感知获取的频谱进行资源分配。通过Matlab仿真平台，得到的仿真结果证明所提出的方法与现有的方法比较具有很大的优势，性能明显优于现有的方法。4.2系统模型4.2.1网络模型本章考虑的多跳认知蜂窝网络架构如图4-1所示。在多跳认知蜂窝网络中有多个认知无线电路由器，每个用户都是一个或多个链路的端点，每个用户设备通过一个路由器接入网络，在网络中还有一个认知服务供应商，它根据频谱检测结果以及路由器中传输队列中第一个要传输的数据包的状态将频谱资源分配给各个路由器，并向路由器发出通知。互联网以信息为中心的多跳认知蜂窝网络以信息为中心的多跳认知蜂窝网络认知无线电路由器认知服务供应商以信息为中心移动用户无线链路的多跳认知蜂窝网络有线链路图4-1多跳认知蜂窝网络架构示意图Figure4-1Multihopcognitivecellularnetworkarchitecture在网络中，认知无线电路由器的总数为E，每个用户连接一个或者多个链路yY，其中Y表示所有链路的集合，YY表示Y的大小是Y。由于每个用户设备通过一个路由器接入网络，将每个链路y中通过路由器e接入的用户的数量表示为uye,。将时间线分割为长度相等的若干个时隙，用ttˆ,ˆ来对每个时隙进行表示，kk1其中k的取值范围是非负整数，用tˆ表示第k个时隙的开始时刻。t表示第k个kk33 北京工业大学工学硕士学位论文时隙的决策时间点，在ttˆ,内，网络中所有的路由器都将执行频谱检测命令，kk将检测结果以及其传输队列中第一个数据包的类型向认知服务供应商进行报告。在t时刻，认知服务供应商根据所有路由器报告上来的信息进行频谱分配决定并k向所有的路由器进行通知。在tt,ˆ这段时间内，如果路由器被分配到了一个kk1子频带，那么就用这个子频带对第一个数据包进行传输。k表示在t时刻感k知获取的频带中可以使用的频带的总数。uyek,,表示了在t时刻通过链路y中k接入到路由器e中的用户总数量。4.2.2服务模型在以信息为中心的多跳认知蜂窝网络中，有三种类型的通信量，分别为控制通信量、普通通信量以及缓存通信量。其中，控制数据包主要用于网络的管理，缓存数据包主要用于存放网络内转移时的缓存数据，普通数据包用于存放用户的请求等信息。Econtrolk、Eregulark、Ecachingk三个集合分别表示了在tk时刻，第一个数据包的类型分别是控制数据包、普通数据包以及缓存数据包的路由器的集合。用Enullk表示在tk时刻传输队列为空队列的路由器的集合。所有路由器根据第一个数据包类型的不同分为了四大类，EEcontrolkEregularkEcachingkEnullk。由于控制数据包要求具有实时性，因此控制数据包具有最高的优先权来进行传输。由于路由器间的缓存数据要在接到用户请求时才转移，因此对于用户请求来说不是即时响应，缓存数据包也就具有时延容忍性。缓存数据包能够对于用户未来可能的感兴趣的信息进行一种网络主动缓存行为。因此，普通数据包的优先权也可以高于缓存数据包。每个缓存数据包f中都包含了用户感兴趣的信息，并且这些用户都属于相同的链路，其中yfY，Yf是都对数据包f感兴趣的用户所在链路端点的集合。将缓存数据包设定为具有固定大小的数据包。用f'表示在路由器e的传输ee,队列并且将要传输到目的路由器e的第一个缓存数据包，f'表示在e缓存器中e具有最低的命中概率的数据。为了给每个缓存数据包f选择一条最合适的路由，应用了以信息为中心的路由选择协议，并且用hf来表示在对缓存数据包进行传输时所需要的跳数。34 第4章多跳认知蜂窝网络中的资源管理4.2.3频谱采集模型考虑正交频分复用作为物理层技术，d和dk分别表示在t时刻可用的LICCRk带宽分为的自有频带和感知获取频带。频谱带宽的分配原则用于将自有频带分配给链路进行传输具有较高优先权的数据包，即将自有频带先分配给控制数据包，然后分配给普通数据包，将感知获取频带先用于传输普通数据包，如果还有可使用的频带再分配给缓存数据包。设用于缓存数据包的感知获取频带的到达和离开服从泊松过程，和分别作为泊松过程的参数。这样在t时刻用于缓存数据包的子频带的数量表示为kk，将子频带的数量建模为一个马尔可夫过程。由于主用户和链接到认知路由器用户的通信量不断在发生变化，可用于缓存数据包的子频带数量k的分布可能也会随之发生相应的变化。用和表示11当主用户网络繁忙时，子频带到达和离开的速率。用和表示当主用户网络22相对空闲时，子频带到达和离开的速率。通常情况下，，。12124.2.4网络缓存模型网络内嵌缓存可减少网络负载。命中概率是对通过缓存带来的收益建模的度量之一。为了体现不同用户的优先权，用beyf,,表示期望的命中概率通过链路y的用户直接连接到路由器e的数据包f内信息的数量，beyf,,uy,eyf,（4-1）其中yf,是期望的链路y中每个用户直接连接到路由器e的命中的数量。在将一个缓存数据包从其原始的路由器转移到目标路由器的过程中，由于用户的请求，相同的信息可能在目标路由器中会被缓存。4.3带有未知及动态变化参数的马尔可夫决策过程建模A.构建系统状态在每个决策时间点t，系统状态都由两部分组成——所有路由器的缓存内容k命中概率增加的离散期望值以及可用的子频带数量。最优化的目标是一个整体目标，主要是对以信息为中心的多跳认知蜂窝网络进行最优化。在每个决策时间点t，系统状态sk包含E1个子状态——所有路由器的离散期望值ek,以及可k35 北京工业大学工学硕士学位论文用的子频带数量k，其中eE。路由器中缓存内容的期望命中概率的增加用ek,表示，这个增加值是指在ttkk,ˆ1时段内，传输路由器e中队列中的第一个数据包fee,获得的。fKeee,ek,hee,bey,,fee,beyf,,e'（4-2）yfYee,yfYe'其中Yfe'是除了Yfe'以外的所有链路Y的集合，fee,是目标缓存标识，定义为0,如果feee,缓存在中fee,（4-3）1,否则Ke是空队列标识，定义为0,如果在e中的缓存数据包队列是空队列Ke（4-4）1,否则这个期望值考虑了网络中传送fee,的多跳问题，如果其成功地到达了目的地e，那么总的收益为hfee,ek,，表明通过将fe替换为fee,获得的期望命中概率的增加。为进行马尔可夫决策过程的建模，要用离散的收益ek,代替连续的ek,，0,如果ek,=0,,如果0<ek11ek,（4-5）mm11.,如果mekM,,如果ekM1其中12mM。m，11mM是门限值；m，11mM是ek,的实现。当mm时，mm。并且，令n，1nN代表在tk时刻k的实现。因此系统的状态可以表示成向量skek,,k（4-6）eEE向量的大小为MN1。用S表示状态空间，SSES，其中SE和S分别是ek,和k的状态空间。B.动作和策略36 第4章多跳认知蜂窝网络中的资源管理在每个时刻t，认知服务供应商根据当前的系统状态sk来对动作决策进行k计算并作出最优策略的选择，同时还要将最终要采取的决策通过广播通知所有的认知无线电路由器。用ak表示在t作出的决策，A是所有可用决策的集合。决k策ak将可用的频谱带宽分配给路由器，因此将ak写成ake，表明每个路由器e的频谱分配决策,1,如果有一个子频带分配给了eake（4-7）0,如果没有子频带分配给了e因此所有的决策的数量为A=2E。在每个时刻t，只有k个子频带可以被kE分配，所以只有个动作是实际可用的，即kakek（4-8）eE在所有的决策时刻点t执行动作ak，其中0kK，便形成策略L，kL*是使系统获得最大收益的策La0,1,a,ak,,aK，一个最优的策略略。C.状态转移概率采取决策ake0后，在ttkk,ˆ1时段内，只有当内容被缓存在目的路由器e时ek,可能会改变。采取决策ake1后，仍然有很大的可能性ek,和ek,1的实现是相同的，这是因为通常多个缓存数据包用于将相同的缓存内容从一个路由器传送到另一个路由器，并且这些数据包有相同的目的路由器和链路端点，从而有相同的状态ek,。Pii,Pek,1|ek,表示了此概率，其中ek,ei,,ei是ek,的实现。ei,在下面的情况中，ek,和ek,1的实现是不同的，设ek,1独立于ek,，即Pek,1|ek.Pe,k1，或者简写为ej,ei,ej,Pj。同样，设不同路由器的状态之间是相互独立的。e引理1：随机过程ek,是一个马尔可夫决策过程。37 北京工业大学工学硕士学位论文证明：考虑ake0，从ek,到ek,1的转移概率为Pek,1e,j|ek,e,i,ek,1ei,k11,,e,1ei,1,P当时ee,j,i（4-9）P,当|=时e,j00,否则0其中P是fee,0的概率，ei,k是在tk时刻ek,的现实值。用Peij,作为公式(4-9)的简短形式。当ake1时，有Pek,1e,j|ek,e,i,ek,1ei,k11,,e,1ei,Peii,,当ee,j,i时（4-10）1Peeii,Pj,当e,j|=0时Pj,否则e由此可推导出Peeii,1P1PkPj（4-11）其中P是缓冲数据包转移队列为空时的概率。k根据上述公式和ek,是一个马尔可夫决策过程，其一步转移概率只与当前的状态和动作有关。引理2：随机过程sk是一个马尔可夫决策过程。证明：首先推导出k和k的转移概率。a用Pij,表示k从i到j的一步转移概率。aPij,Pk1ji|akai,k,k1k1,,11Pek,1e,ji|akai,k,k1k1,,11eEPek,1e,ji|aek,ai,ek,e,eEPk1ji|aka,ki（4-12）其中a是ak的实现。i38 第4章多跳认知蜂窝网络中的资源管理推导出了k的分布概率，也是其转移概率，即Pk1|jikPn1Pn2,当jin,0jmaxnn12,Nn（4-13）Pn12Pn,当j=0nn21iPn1Pn2,当jmaxnn12maxi其中和是k的实现，Pn表示在一个时隙内有n个新的子频带可用于ij11缓存数据包的概率，Pn2表示在一个时隙内有n2个子频带不再用于缓存数据包的概率，Nn定义为n1和n2的集合，n1和n2满足n12nn。ttkk1n1etkk1tPn1（4-14）n1!ktkk1tn2ektkk1tPn2（4-15）n2!将Pk1k1|kk简写为Pkk,1。若ak和k是相互独立的，sk的转移概率为Pijs,Psk1sj|akaski,sski,1sk11,,s1sPk1j|akaski,sski,1sk11,,s1s（4-16）Pk1j|akaski,sski,1sk11,,s1saPijPij,,显而易见，这个概率不取决于kk1,2,,1，而是只取决于ak和k，因此，sk是一个马尔可夫决策过程。在以上推导的一步转移概率中，、、P、Pk、Pej是未知的并且不能被直接观测到或者随时间变化。D.目标和收益在以信息为中心的多跳认知蜂窝网络系统中，优化目标L*是最大化总的系统收益，而优化目标L*与总的系统收益R有关，总的系统收益R由折扣系数以及离散的ek,决定。39 北京工业大学工学硕士学位论文最优化问题的目标是最大化总的系统收益，写为*Largmax,..:RstLL（4-17）用离散的ek,来表示收益，因此总的收益可以表示为KKkRek,（4-18）ke1E4.4部分可观测马尔可夫决策过程建模A.带有未知参数的马尔可夫决策过程再建模假设可用于缓存数据包的感知频带的到达和离开服从泊松过程，和作为泊松过程的参数可能有不同取值。作为最优频谱分配决定时需要得知和的实际值，故只能采用带有未知参数的马尔可夫决策过程模型。和有不同的可能取值1、2和1、2，当作出最优频谱分配决定时需要得和的实际值。频谱管理问题符合带有未知参数的马尔可夫决策过程模型要求的五个属性。若繁忙和空闲时间的时隙的平均数量分别为1和2，那么将状态转移概率矩阵写为PP1,11,2P（4-19）PP2,12,2其中11PP1,1,1,2（4-20）1111PP2,1,2,2（4-21）22一个带有未知参数的马尔可夫决策过程是特殊的部分可观测马尔可夫决策过程，可以将其转换为一个部分可观测马尔可夫决策过程。用S、A、P、R、O和Q分别表示状态空间、动作空间、状态转移概率、收益函数、观测空间以及生成的部分可观测马尔可夫决策过程的观测概率。令和的模式空间分别为和，则S、A、PR、、O和Q可以通过SA、、Pijs,,和ek简单地推导得出。B.扩展的部分可观测马尔可夫决策过程再建模将带有未知参数的马尔可夫决策过程再建模为扩展的部分可观测马尔可夫40 第４章多跳认知蜂窝网络中的资巧管理一＂Ａ＇〇＇，ｓ严Ｔ决策过程用个元组，，，，，化，来表示这个部分可观测马尔可夫决ｇ；（〉策过程，描述了扩展的状态空间、动作空间、观测空间、扩展的转移概率、观测函数、扩展的系统收益Ｗ及折扣系数。用离散形式的巧、巧和表示皆和与Ｗ的离散值，ｗ巧、巧和ｆ的取值集合分别为邸、鸣和０，取值集合的大小分别为心）响以））Ｕ＝＝％，＠二未知的参数空间０可Ｗ写为心阿＾。６〇／）Ｎ１（，｜｜＂＇＝因此扩展的空间ｓｓｘ０作为部分可观测马尔可夫决策过ｓ＇程状态空间和参数空间０的向量积。转移概率更新为＇＂＂＇Ｐｉ＝ｋ＋＝ｋ＝ｋ＝ｊＰｓ＼ｓａａｓｓｒ（）（）］＼（），（）；［）＇＇二二＂二二二二ＰＳ友＋１５贫灰＋１台ｉ７表台－Ｓ皮技皮，，（）（）Ｉ（），（）吊（）马（；）二二二ｘＰ＾Ａ．：＋１。￡７反（ｉ，（）今Ｉ（叫句（）ｆ（）＂－＝，，巧〇■／＞马马（）＂其中和ＳＡ＋１是可扩展的部分可观测马尔可夫决策过程的状态，和（叫（）叫叫户作＋１是原始部分可观测马尔可夫决策过程的状态，０和０Ａ＋１是未知参）（叫（）．＝資数［ＡＶ］的参数，口马啤是克罗内克＾函数（如果４ｊ，值为１否则为０）。（）执行离线部分，可获得最优的或者近似最优的策略。Ｃ．在线在频谱资源管理进＾＾＾信息为中屯、的多跳认知蜂窝网络中，认知服务供应商在网络初始化阶段取行离线计算，存储所有可能的系统状态所对应的最优策略。如果可用的感知获频带满足网络中所有路由器的需求，即Ｅｃ。＂的＇＋Ｅ平Ｅｃ。施，不需要最优的分配方法。否例｜，＂ｒ例＋｜Ｗ例如Ｚ／Ｃ＋知存贝ＩＪ，子频带将会先分给有控制和普通数据包的路由器，然后再最优地分配给有缓数据包的路由器。４．５仿真结果及分析达本文通过仿真实验对不同数量路由器抖及不同缓存数据包和感知频带的到包和离开速率时的平均命中概率分析比较，并对不同数量路由器时用户请求数据的平均跳数进行分析比较。斗－ 北京工业大学工学硕士学位论文设固定的数据包大小和子频带宽度固定，并且缓存内容的平均命中概率为0.2，在一个有E个认知无线电路由器和10E个随机分布并能接入离他们最近的路由器的用户的区域中，令PP0.1,k0.2。网络中有越多的路由器，平均命中概率就会越低。设置10.03，10.12，20.15，20.10在不同数量路由器情况下平均命中概率曲线图如图4-2所示。图4-2不同数量路由器情况下平均命中概率比较Figure4-2Averagehitprobabilitywithdifferentnumbersofrouters从图4-2的曲线走势可以看出，本方法与贪婪方法、主动方法以及被动方法相比，显著地提高了性能。当路由器数量相对较小时，平均命中概率逐渐增加，这是因为路由器越多，产生的缓存数据包越多，这会提高缓存分配。但是当E60时，感知频带不能满足缓存数据包通信量，造成平均命中概率的降低。图4-3是不同数量路由器下情况下用户请求数据包的平均跳数曲线，展示了平均时延性能。随着路由器数量的增加，平均用于传输用户要求的数据的跳数快速增加。与贪婪方法、主动方法以及被动方法相比，本方法总是能提供较低的平均延时。令E80，不同的和取值时平均命中概率比较图如图4-4所示。图4-422中，set1到set5分别代表了22=0.09，=0.16，22=0.12，=0.13，22=0.15，=0.10，22=0.18，=0.07，22=0.21，=0.04，从图4-4的曲线走势可以看出当2增长、2减少时，提出的方法和贪婪方法能够从感知42 第4章多跳认知蜂窝网络中的资源管理获取的带宽获得更多收益，并且与贪婪方法、主动方法和被动方法相比，本算法能够显著地改善性能。图4-3不同数量路由器情况下用户请求数据包的平均跳数比较Figure4-3Averagenumberofhopstodelivertheuserrequestedcontentswithdifferentnumbersofrouters图4-4不同和情况下的平均命中概率比较22Figure4-4Averagehitprobabilitywithdifferentsetsofand2243 北京工业大学工学硕士学位论文4.6本章小结本章在多跳认知蜂窝网络中，应用了一种新的以信息为中心的网络架构，并通过主动缓存的方式，来缓存之前已经被路由器传递的数据以及减少信息传输延迟。针对频谱资源短缺的问题，本章研究了一种以信息为中心的多跳认知蜂窝网络架构，提出了最优频谱分配策略。此外，为了解此问题，先建模成为带有未知及动态变化参数的马尔可夫决策过程模型，再将其建模成为部分可观测马尔可夫决策过程模型，进而求解该问题。仿真结果证明，本章提出的方法与现有方法相比，能够显著地改善系统性能，并大幅度提高收益。44 第5章无线虚拟网络中面向低频资源切换的资源分配第5章无线虚拟网络中面向低频资源切换的资源分配近年来，网络虚拟化成为人们关注的焦点，针对有线网络虚拟化已经开展了很多的研究。在无线网络中，研究内容还没有像有线网络虚拟化中那么详尽成熟，还存在着很多的问题需要被研究。本章中，我们主要研究了无线虚拟网络中在多个服务供应商之间如何进行资源分配，提出并研究了部分可观测马尔可夫决策过程模型。基于部分可观测马尔可夫决策过程在服务供应商之间公平地进行资源分配，并且在资源分配的过程中能够使服务供应商可以获得最大收益。5.1引言虚拟化技术是在实体硬件资源中进行软件抽象，使这些实体硬件资源被划分为更多的独立的逻辑软件资源，这些逻辑软件资源可以使用户在使用过程中感觉到自己是在使用单独的硬件资源。近年来，网络虚拟化逐渐得到人们的重视，网络虚拟化的实现可以满足使硬件资源得到更有效率地使用、更加容易地应用到新的产品或者技术中以及降低设备及管理的费用。通过网络虚拟化可以实现部署定制化服务以及在一个共享物理网络中进行资源管理。为了解决无线网络中现存的问题，提出了无线网络虚拟化概念。网络虚拟化包括了基础设施共享以及频谱资源共享。在无线网络虚拟化中，传统的网络服务供应商（ISPs）被划分为基础设施供应商（InPs）和服务供应商（SPs），基础设施供应商拥有物理资源，包括基础设施和频谱资源；服务供应商通过向基础设施[49]供应商租用物理资源来部署定制化服务并向用户提供其所需要的服务。无线网络虚拟化中应用了几种主要的技术。第一种是认知无线电技术，在动态频谱接入方面认知无线电技术应用广泛；第二种是移动虚拟网络运营商，移动虚拟网络运营商需要向移动主网络运营商租用无线电资源，可以将移动虚拟网络运营商看作是一种特殊的无线网络虚拟化的实现；第三种是基于LTE的方法，这种方法与有线网络中的路由器虚拟化类似；第四种方法是基于WLAN的方法，这种方法考虑了将有限的频谱资源通过相对公平的方式进行资源分割。由于多个服务供应商共享一个基础设施供应商拥有的基础设施资源和频谱资源，使无线虚拟化中资源分配成为一个重要的问题，即将基础设施资源和频谱资源高效地分配给不同的服务供应商。在基础设施供应商与服务供应商之间应该有一个预先定义的协议，通过这个协议可以使资源利用率最大化同时向用户提供其所需的性能。文献[50]的作者总结了不同的无线虚拟化架构、无线虚拟化面临的挑战以及实现无线虚拟化的要求。近年来，很多现有工作为了解决无线网络虚拟化中的资45 北京工业大学工学硕士学位论文源分配问题。文献[51]的作者提出了一种破产博弈模型，并通过这种模型实现了在多个虚拟移动运营商之间的无线资源的动态分配，通过仿真结果证明，这种基于动态无线资源分配方法的破产博弈模型可以使虚拟移动运营商在相对公平的条件下获得无线资源，并且能够基本保证虚拟移动运营商的预期。文献[52]和文献[53]的作者提出了一种机会主义的频谱共享方法，这种方法可以使用户机会主义的接入共享的频谱资源。通过文献[52]以及文献[53]的仿真结果表明，机会主义频谱共享方法可以提高频谱资源的使用率。文献[54]证明了机会主义频谱共享能够使多个用户都能够以一定机会概率接入到共享无线电资源。文献[55]的作者通过时分复用方法进行资源分配，这种方法可以提高资源分配效率，通过仿真结果也可以表明这种时分复用方法具有明显的作用。文献[56]的作者着重研究了虚拟的长期演变（LTE）网络，提出了一个超级监督者概念，将其设置在物理层上方，负责将频谱资源分配给服务供应商。文献[57]的作者提出了的作者提出了网络虚拟化基质（NVS），文献[58]的作者提出了单元切片算法，这两种方法都将虚拟网络分离成多个单元，并通过在每个小单元上进行定制化服务使资源能够得到高效利用。文献[59]的作者提出了一种动态贪婪嵌入算法，通过仿真结果证明这种方法可以提高资源的使用，并且能够降低报废率。在本章中，我们主要研究了基于部分可观测马尔可夫决策过程模型的无线网络虚拟化中的资源分配问题。我们的目标是使所有的服务供应商在相对公平的竞争环境中都能够从基础设施供应商处租用到资源，并且通过这种方式获得最大收益。我们提出的方法有以下四个优势：无线信道的信道状态信息对于服务供应商来说是未知的，服务供应商需要对无线信息到状态信息进行观测获得。我们考虑到了服务供应商观测到的信道状态信息可能是不准确的情况。为了减少资源切换时产生的费用，我们引入优先权概念来减少资源切换次数，并考虑其他因素使服务供应商之间对于资源的竞争能够更加公平公正。我们提出这种方法的目标是使服务供应商的长期收益最大化，而不是只关注直接收益。服务供应商在使用不同质量的物理资源块时所要付出的费用也不相同，这样能够使服务供应商与基础设施供应商之间的交易更加公平，同时也能够使我们考虑的环境更加接近实际情况。5.2系统模型这一小节将主要讨论系统的框架以及系统描述、网络模型、无线信道模型以46 第5章无线虚拟网络中面向低频资源切换的资源分配及数据到达模型。5.2.1系统描述在我们的考虑中，同一个物理网络中，无线网络可以支持各种各样的服务。系统可以用图5-1中所示的来描述，系统中包含了三部分——移动用户、服务供应商和基础设施供应商。在一个系统中可能会含有多个基础设施供应商、服务供应商以及很多的用户，服务供应商负责根据用户的需求来向用户提供定制化服务，基础设施供应商负责将其拥有的资源分成物理资源块，并将它们合理地分配给服务供应商。图5-1基础设施供应商、服务供应商及用户组成的系统示例Figure5-1AnexampleofthesystemandtherelationshipamongInPs,SPsandusers在这个系统中主要考虑的对象是服务供应商，这是由于服务供应商是最新提出来的概念，并且服务供应商也是这个系统中挑战最大的部分。同时，服务供应商的性能对于整个系统都具有很重要的影响。每个服务供应商都希望定制化其自己的虚拟网络来满足用户对于服务的需求，因此基础设施供应商需要将物理资源块租给服务供应商。服务供应商会获得基础设施供应商提供的物理资源块的信道质量信息、优先权信息以及在其缓冲区域等待传输的数据的数量，根据这些信息，服务供应商将会决定是否要租用这个物理资源块以及以多少租金来租用这一物理资源块。基础设施供应商拥有基础设施资源以及频谱资源，并且将这些资源进行划分，最小的资源分配单元应该包含足够支持网络运行的基础设施资源和频谱资源，这个最小的资源分配单元称为物理资源块。不同的物理资源块具有不同的信道质量，在系统的运行过程中，由基础设施供应商提供给服务供应商来进行租用。47 北京工业大学工学硕士学位论文在虚拟架构中，当服务供应商做出以多少租金租用物理资源块的决定后，信道质量信息、物理资源块的优先权状态以及待数据的数量将会改变。假设服务供应商是非常公平地将物理资源块分配给服务供应商，分配会根据一系列标准的程序，同时，基础设施供应商与用户之间不会有关联。5.2.2网络模型假设系统中共有M个基础设施供应商以及N个服务供应商。基础设施供应商将他们所拥有的资源分成一定数量的物理资源块，并根据服务供应商所给出的竞价将这些物理资源块分配给服务供应商使用。服务供应商根据信道状态信息、物理资源块的优先权信息以及在缓存中待传输的数据数量来选择最合适的租金来竞争物理资源块。在我们的假设中，共有Nn个具有不同信道状态信息的物理资源块，这些物理资源块的传输速率、信道容量等性能都不相同。为了保证竞争的公平性，当一个基础设施供应商给出一个可以竞争的物理资源块之后，所有的服务供应商可以在同一时刻对这个物理资源块进行竞争，并且在竞争过程中，每个基础设施供应商以及服务供应商之间都会采用一个统一的协议。在网络中，用户将会向服务供应商交付使用服务的费用，具体的用户数量不用确切知道，只需知道服务供应商的缓存区处待传输的数据数量即可。将连续的时间分割为T个时隙，每个时隙都会有一个物理资源块供服务供应商来竞争。5.2.3无线信道模型影响无线通信性能的一个最重要的影响因素就是无线信道状态。在实际的情况中，总是存在大量散射无线电信号的障碍物，因此选择瑞利衰落信道。在瑞利衰落信道中，假设一个信号经过无线信道后，其信号幅度是随机的，即为“衰减”，并且信号的包络服从瑞利分布。2瑞利分布是一个均值为0、方差为的平稳窄带高斯过程。在我们提出的架构中，衰落指数服从瑞利分布，并且其表达式为22fe2,0（5-1）2在每一时隙用信道的衰落来表示平均信道状态。cnt,表示在时刻t时信道衰落的状态，c表示了预测的下一时刻t1时信道衰落的状态。在当前时刻tPnt,,1时，cnt,是已知的，但是c应该考虑为一个随机变量。引入变量Pnt,,1cnt,,cnt/cPn,,t1来表示从cnt,到cPnt,,1的信道衰落变量，同时，采用一些列的阈值q来将连续随机变量cnt,转变成为一个离散的随机变量，其中，48 第5章无线虚拟网络中面向低频资源切换的资源分配11qQ，并且当12qQ时nn1。cc,如果0nt,1cnt,cn,如果ncnt,n1,1qQ2（5-2）cc1,如果1Nnnnt,N其中cn是cnt,的实际值。pnt,1p表示在t时刻的接收信号功率，所以得到cc/，其中是nt,nt,nt,1pnt,衰落指数。用c来代替c是由于在t时刻c是未知的，因此可以得到Pnt,,1nt,1nt,1pnt,1pnt,cnt,/cnt,1pcntnt,,。由于cnt,是离散的，所以pnt,1也是离散的，并且ppc。nt,1ntnt,,5.2.4数据到达模型当一个服务供应商获得一个物理资源块后，在指定的时段所有的数据都可以进行传输。假设数据以具有一定大小W的数据包的形式进行传输，那么利用物理资源块N进行数据传输的过程就可以看作一个具有期望到达速率为的nNn泊松过程。那么在指定时段内，L个数据包进行传输的概率为NnLNnNnNPLen（5-3）NNnnL!Nn5.3部分可观测马尔可夫决策过程建模在本节中，主要研究将资源管理分配问题建模为部分可观测马尔可夫决策过程模型。部分可观测马尔可夫决策过程模型假设系统的状态信息不能被直接得到，只有一部分状态信息是可知的。因此，部分可观测马尔可夫决策过程模型适用于无线网络的实际情况。一个动态的部分可观测马尔可夫决策过程模型包含了三个集合——状态集合S、动作集合A以及观测集合O，还有三个函数——观测函数X、转移函数Y以及收益函数R。A.动作及目标部分可观测马尔可夫决策过程模型可以根据目标对象的状态来选择出最合适的动作，因此，部分可观测马尔可夫决策过程模型将会帮助服务供应商在无线虚拟化资源分配过程中选择出最合适的价格来竞争物理资源块资源。49 北京工业大学工学硕士学位论文在部分可观测马尔可夫决策过程模型下的无线虚拟化资源分配中的动作代表的是由服务供应商为了竞争基础设施供应商拥有的物理资源块给出的不同的价格。价格本应该是连续的，但是我们将这些连续的价格分离成为多个离散的小区间，每个价格小区间代表了一个动作。因此，定义atAaaa1,,,,23ak，k1,2,3,，其中ak是一个离散价格的小区间。建立部分可观测马尔可夫决策过程模型的目标是使服务供应商在无线虚拟化资源分配过程中能够获得最大的利润。在数学表达式上，目标可以表示为TaTtmaxRt（5-4）atAt1a其中是折扣因子，且01，R是在t时刻选择动作at的作用下通过t传输数据而获得的系统收益。B.系统状态空间用snt,代表物理资源块n的状态，且snt,，其中是状态空间。snt,是一个四维离散随机变量。snt,的第一个部分是在基础设施供应商与服务供应商之间的信道的状态cnt,，其中是信道状态信息的状态空间，根据信道衰落情况将信道状态进行离散化。snt,的第二部分是前一时刻物理资源块的分配情况信息r，其中0,1是前一时刻物理资源块的分配情况的状态空间。r0nt,nt,表示在前一时刻进行分配时，物理资源块没有分配给当前考虑的服务供应商，r1表示在前一时刻进行分配时，物理资源块分配给了当前考虑的服务供应商。nt,s的第三部分是同一物理资源块在其上一次被分配时的分配情况信息r，nt,nt,其中0,1是同一物理资源块在其上一次被分配时的分配情况状态空间。r0表示当前要分配的物理资源块在其上一次被分配时没有分配给当前考虑nt,的服务供应商，rnt,1表示当前要分配的物理资源块在其上一次被分配时分配给了当前考虑的服务供应商。snt,的最后一部分是队列长度信息lnt,，其中是队列长度状态空间。假设所有的数据都是固定的数据包大小，因此，用数据包的数量来代表队列长度。物理资源块的状态就可以表示为snt,cnt,,,,rnt,rnt,lnt,（5-5）其中表示了一个集合的大小，并且Q。50 第5章无线虚拟网络中面向低频资源切换的资源分配分配情况可以使一个服务供应商知道在之前的分配时刻物理资源块是否分配给了它，如果这个物理资源块分配给了这个服务供应商，那么在当前时刻它在对于这个物理资源块的竞争中有了一定的优势。队列长度是指在缓存处用户需要传输的数据包的数量。C.观测信息在部分可观测马尔可夫决策过程模型中，目标对象的一些状态信息是不能够完全观测到的，因此引入观测函数来提供部分可观测的环境。在资源分配的过程中，一个服务供应商可以获得一系列的观测，并且这些观测只依赖于潜在环境的状态概率。状态与观测o之间的关系可以用观测函数Xj来反应。通过观测函数，nt,对于下一时刻的观测结果可以由当前时刻服务供应商选择的动作和下一时刻的状态信息来决定。那么观测函数可以表示为Xjnt,1（5-6）UV其中，U和V分别表示了状态和动作的数量，并且nt,1Probo.nt,1osj|nt,siatak（5-7）Probo.nt,1ocj|nt,cirnt,rirnt,rilnt,liatak然而，前一时刻分配的物理资源块的分配信息r、同一物理资源块上一次nt,进行分配时的分配情况信息r以及队列长度状态l可以确切的观察到，那么只nt,nt,需要考虑c。c的概率矩阵可以表示为nt,iaa1kkci（5-8）aa1kkD.状态转移概率系统状态的一步转移概率矩阵收到在t时刻采取的动作at。从状态s到nt,状态s的转移概率用数学表达式可以表示为nt,1aPij,Probs.nt,1sjs|nt,siatakProbc.nt,1cjrnt,1rjrnt,1rjlnt,1lcj|nt,cirnt,rirnt,rilnt,liatakProbc.nt,1ccj|nt,,ciProbr.nt,1rrj|ntriatakProbr.nt,1rrj|nt,,riatakkProbl.nt,1llj|ntliata（5-9）可以简写为aaaPij,PijPijPijPc,r,r,lcr|,ij,（5-10）51 北京工业大学工学硕士学位论文其中，ll,是l的现实值。ijnt,（1）转移概率Pij,：Pij,是从状态cc转移到状态cc的转ccnt,int,1j移概率。对于服务供应商来说，信道状态是不能够完全知道的，所以，服务供应商通过观测函数获得部分可观测的环境。因此，转移概率Pij,与观测的结果c有关。根据信道可以提供的通信质量将信道状态信息分成多个离散的部分。cnt,Cccc1,,,23,cq,q1,2,3,，q的值越大，具有状态cq的信道就能提供更好的通信质量。在时段i的信道状态信息与在时段j的信道状态信息是彼此独立的，这是因为在不同的时段提供给服务供应商竞争的物理资源块是不同的。所以Pij,可以写为cPijc,Probc.nt,1ccj|nt,ciProbc.nt,1cj（5-11）fccPPn,,t代表了cPnt,,的概率密度函数，根据cnt,cnt,1/cPnt,,1，可以将cnt,的概率密度函数表示为21fccnt,fcP（5-12）ccntnt,,cnt,因为cnt,是由cnt,离散化而来的，根据fccnt,可以将cnt,的分布概率表示为1fccnt,,dcnt,0如果qq1PjcProbc.nt,1cjfccnt,,dcnt,如果1qQ2（5-13）qfccnt,,dcnt,1如果qQQ1aa（2）转移概率Pij,：Pij,代表了在动作ata的作用下从状态rrkrr转移到状态rr的转移概率。像之前提到的，如果一个服务供应商选nt,int,1j择了一个较高的价格作为采取的动作来竞争一个物理资源块，那么这个服务供应商就有更高的可能性获得这个物理资源块，也就是说，这个物理资源块的分配结果是分配给这个服务供应商的概率更高。与之对应的，如果服务供应商在竞争物理资源块时选择了一个较低的竞争价格，那么这个服务供应商获得这个物理资源块的概率就更低。考虑到动作at对于r的影响作用，情况会更加复杂。为了简化这个情况，nt,我们不考虑动作at对r的影响。r1表示了在前一时刻，分配的物理资源nt,nt,52 第5章无线虚拟网络中面向低频资源切换的资源分配块分给了我们考虑的服务供应商；r0表示了在前一时刻，分配的物理资源块nt,a没有分给我们考虑的服务供应商。那么Pij,可以表示为r1,1rNnt,aPijr,（5-14）11,r0nt,Naa（3）转移概率Pijr,：Pijr,表示了在动作atak的作用下从状态rr转移到状态rr的转移概率。每个物理资源块有一个固定的使用时nt,int,1j间，在使用时间结束后，这个物理资源块可以被再次进行分配。当基础设施供应商再次对之前分配过的物理资源块进行分配时，服务供应商应该同时考虑到所选a择的动作以及这个物理资源块在其上一次被分配时是否分给了自己。Pijr,会aa受到动作atak的影响，动作对于Pijr,的影响与对Pijr,的影响基本相同。当考虑到动作ata的作用时，情况会变得十分复杂，因此，我们先不考k虑动作的影响。r1表示了当前分配的物理资源块在其上一次被分配时分给了nt,我们考虑的服务供应商。r0表示了当前分配的物理资源块在其上一次被分配nt,a时没有分给我们考虑的服务供应商。那么Pijr,可以表示为1,1rNnt,aPijr,（5-15）11,r0nt,N（4）转移概率Pij,：状态l与状态l,,cr有关，受到它们的影lcr|,nt,1nt,nt,nt,响。实际的数据速率通过到达速率h和队列长度l可以表示为ii1HiminhWl,（5-16）nii其中，chBlog1i（5-17）iN0假设在接收端的噪声功率是N。0在传输缓存处已经到达的数据包数量假设为L，在时间间隔通过物理资Nn,源块n传输的数据包的数量为L。队列长度可以表示为Tn,53 北京工业大学工学硕士学位论文rHiinlnt,1ln,tLNn,LTn,（5-18）W那么转移概率Pij,可以表示为lcr|,Pij,,如果llrHiinLLlcr|,jiNn,Tn,Plcr|,ij,W（5-19）0,其他情况其中li和lj分别是lnt,和lnt,1的现实值。Plcr|,ij,PNn,LNn,PTn,LTn,（5-20）LLNn,,T,nNETn,其中PL和PL分别是L和L的分布概率，是所有L和Nn,,NnTn,,TnNn,Tn,NETn,Nn,L的集合，并且满足LLL，L是队列长度的净增量。Tn,Nn,Tn,NETn,NETn,E.系统收益应用部分可观测马尔可夫决策过程模型的目标是使服务供应商在资源分配的过程中获得最大的收益。一个服务供应商可以向用户收取服务费用，同时也要向基础设施供应商付使用物理资源块的费用。因此一个服务供应商的净收益是向用户收取的费用减去使用物理资源块产生的费用。用户会根据实际的服务质量体验向服务供应商付服务费用。使用香农定理来预测用户实际体验的服务质量，用户期望的服务质量可以用队列长度来表示。因此，系统的收益可以表示为aciRiiminBlog1,lfk（5-21）N0其中f代表了动作a对应的离散价格区间的中间值。当一个服务供应商选择了kk动作a来竞争物理资源块，如果这个服务供应商获得了物理资源开，那么它就k应该向基础设施供应商交付f的费用，以使用物理资源块向用户提供服务，即fkk是物理资源块的租金。5.4仿真结果及分析在本小节中，大量的仿真结果图被展示出来用于证明应用的部分可观测马尔可夫决策过程模型可以实现资源的动态分配。在我们的仿真中，假设服务供应商可选择的动作有五个，系统的状态有六个，同时有六种观测，整个系统运行过程中共有20个分配时刻，每个分配时刻都有500个物理资源块进行分配。设W16，1，B15，0.8，令54 第5章无线虚拟网络中面向低频资源切换的资源分配0.4，0.5，0.5，0.4，0.6，aa11aa11aa22aa22aa330.3，0.7，0.2，0.8，0.1。aa33aa44aa44aa55aa55图5-2每个时刻服务供应商可获得的平均收益Figure5-2AveragerewardoftheSPineachslot图5-3每个时刻基础设施供应商可获得的平均收益Figure5-3AveragerewardoftheInPineachslot如图5-2所示为每个时刻考虑的服务供应商可以获得的平均收益。其中衰落指数10，数据到达速率15。从图中可以看出基于POMDP模型方法Nn55 北京工业大学工学硕士学位论文下，每个分配时刻考虑的服务供应商可获得收益要高于使用现有方法可获得的平均收益，并且使用POMDP模型获得的收益更加稳定。图5-3反映了每个时刻基础设施供应商可以获得的平均收益。其中衰落指数10，数据到达速率15。虽然我们没有主要考虑基础设施供应商的收Nn益，但是通过图5-3可以看出使用POMDP模型也可以使基础设施供应商的收益有一定的提高，同时收益也相对比较稳定。改变观测矩阵中的变量对于服务供应商的收益也有一定的影响，它们之间的关系如图5-4所示。其中衰落指数10，数据到达速率15。令Nn，k1,2,3,4,5从0.1变化至0.9。如图5-4a1a2a3a4a5ak所示，在每个分配时刻基于POMDP模型的方法与现有其他方法相比能够使服务供应商获得更高的收益，并且收益曲线的整体趋势是增长的，这是因为根据公式（5-8）可知，的值越大，对于c的观测就越准确，那么服务供应商就可以给aki出一个更加合理的竞争价格。所以的值越大，在每个时刻服务供应商可以获ak得的收益就越高。图5-4服务供应商可获得的平均收益与观测矩阵中的变量之间的关系图Figure5-4TherelationshipbetweenaveragerewardoftheSPandvariable改变观测矩阵中的变量对于服务供应商的收益也有一定的影响，它们之间的关系如图5-5所示。其中衰落指数10，数据到达速率15。令Nn，k1,2,3,4,5从0.1变化至0.9。如图5-5a1a2a3a4a5ak56 第5章无线虚拟网络中面向低频资源切换的资源分配所示，在每个分配时刻基于POMDP模型的方法与现有其他方法相比能够使服务供应商获得更高的收益。图5-5也说明基于POMDP模型的方法的收益曲线的整体趋势是降低的，这是因为根据公式（5-8）可知，的值越大，对于c的观测aki就越不准确，那么服务供应商就不能给出一个相对比较合理的竞争价格。所以的值越大，在每个时刻服务供应商可以获得的收益就越低。ak图5-5服务供应商可获得的平均收益与观测矩阵中的变量之间的关系图Figure5-5TherelationshipbetweenaveragerewardoftheSPandvariable图5-6数据到达速率不同的情况下服务供应商的平均收益NnFigure5-6TheaveragerewardoftheSPwithdifferentdataarrivingrateNn57 北京工业大学工学硕士学位论文数据到达速率对于队列长度的影响作用很大，因此会对系统的状态NnNn有一定的影响。设10，图5-6和图5-7分别展示了在数据到达速率不同Nn的情况下服务供应商和基础设施供应商的平均收益。如图5-6所示，在数据到达速率为21时，服务供应商可以获得最大的平均收益。因为数据到达速率太Nn快会使队列长度变得更长，这种情况会使服务供应商选择更高的竞争价格以获取资源向用户提供服务。所以到达速率越快，服务供应商可获得的平均收益就越低。如图5-7所示，数据到达速率越大，基础设施供应商可获得的平均收益就越Nn高。这是因为在数据达到速率越快，服务供应商会以一个相对高的价格去租用基础设施供应商的物理资源块，这样就使基础设施供应商获得更高的收益。图5-7数据到达速率不同的情况下基础设施供应商的平均收益NnFigure5-7TheaveragerewardoftheInPwithdifferentdataarrivingrateNn不同的衰落指数对于无线信道的影响作用很大，同时无线信道又是对于通信质量影响最大的因素。衰落指数越大，信道状态就会相对越好。设数据到达速率15，图5-8和图5-9分别展示了在不同衰落指数的情况下服务供应商Nn和基础设施供应商可以获得的平均收益。如图5-8所示，在衰落指数不同的情况下服务供应商可以获得的平均收益的曲线趋势是逐渐上升的，可以看出，衰落指数越大，服务供应商就能够得到更多的收益。因为通信质量越高，服务供应商就可以向用户收取更高的服务体验费用。如图5-9所示，衰落指数越大，基础设施供应商可以获得的平均收益就越多，收益曲线的趋势也是上升的。因为物理资源块可以提供的通信质量越高，服务供应商就会向基础设施供应商付更多的58 第5章无线虚拟网络中面向低频资源切换的资源分配租金来获得物理资源块的使用权，这样基础设施供应商的收益就会有所提高。图5-8衰落指数不同的情况下服务供应商的平均收益Figure5-8TheaveragerewardoftheSPwithdifferentfadingexponent图5-9衰落指数不同的情况下基础设施供应商的平均收益Figure5-9TheaveragerewardoftheInPwithdifferentfadingexponent5.5本章小结本章中，讨论了将部分可观测马尔可夫决策过程模型应用到无线虚拟网络中59 北京工业大学工学硕士学位论文面向低频资源切换的资源分配问题中。为了减少资源切换使用时产生的费用以及能源消耗，引入优先权概念使资源切换的频率可以降低。同时还考虑到无线信道状态的不可全部已知的情况，应用部分可观测马尔可夫决策过程模型，将这一部分问题变为可观测的部分。通过大量的仿真结果可以表明，基于部分可观测马尔可夫决策过程模型的方法与现有方法比较可以使服务供应商获得更高的收益，提高了整体的性能。60 第6章无线虚拟网络中缓存及频谱资源的联合管理第6章无线虚拟网络中缓存及频谱资源的联合管理近年来，由于网络虚拟化在有线网络中的成功实施以及无线网络的快速发展，网络虚拟化技术被引入到无线网络中。在无线网络中，资源管理始终是一个关键议题。本章中，在用于资源管理的资源拍卖架构的基础上，我们主要研究服务供应商（SPs）的最佳的出价决策。目标在于最大化服务供应商的总收益，而服务供应商的总收益是由用户服务收益及资源使用费用两部分组成，所以最佳的出价行为决策计划要考虑缓存和频谱使用费用（B-CaB）。应用具有未知参数的马尔可夫决策过程模型，为了解决状态转移参数不总是已知的或者可以观测的这一具有挑战性的难题，将其再次建模为部分可观测马尔可夫决策过程。本章后面的小结中给出了大量的仿真结果，这些结果证明了我们所提出的方法具有有效地性能改进。6.1引言在学术界和工业界，网络虚拟化都引起了很多的关注。通过网络虚拟化技术，在真实的硬件资源上使用软件抽象提取，使硬件资源变成多个独立的逻辑软件资源，使用户感觉他们是在使用着单独的硬件资源。网络虚拟化的完成可以满足更高地硬件使用效率，并且，通过网络虚拟化可以更简单地迁移到更新的产品或者技术中，还能够降低设备部署和维护的费用。在共享的物理网络中，每个独立的部分都能够很容易的实现定制化服务以及资源管理解决方案。[60]近年来，在不同的领域中虚拟化已经成为一个普及的概念。文章[61]的作者们提出了可恢复的分布式的共享虚拟存储系统，此系统在分布式的存储器架构中可以提供一个共享的存储器。文献[62]中提出了一种虚拟计算机的架构，这个架构可以支持个体过程或者一个完整的系统。文献[63]的作者们给出了一种用于分布式存储的网络码的概述，这种网络码可以实现虚拟存储访问网络。在有线网络中，关于虚拟化的研究已经开展了数十年[60]。文献[64]呈现了虚拟局域网（VLANs）的细节，一个虚拟局域网可以允许在一个单独的广播域中存在一组群的主机。虚拟专用网（VPN）也是一个有线虚拟化的例子，虚拟专用网可以被分为四层。文献[65]的作者们提出了第一层虚拟专用网络服务，包含了服务概念、服务需求及高级的网络架构需求。文献[66]中提出了一种第二层虚拟专用网络的架构来帮助协议和机制的标准化。文献[67]中的作者们提出了一种第三层虚拟专用网络的架构，并针对第三层的设计问题解决上有重要影响的议题提出了描述及说明。文献[68]中的作者们讨论了用户可以创建虚拟专用网的方式，可以通过在61 北京工业大学工学硕士学位论文更高层中使用现成的产品。考虑无线网络虚拟化，在理论上基础设施和无线电资源都被隔离并共享。虚拟无线网络中的两个主要部分是基础设施供应商（InPs）和服务供应商（SPs），这两部分替代了传统网络服务供应商（ISPs）。关于无线网络虚拟化中已有研究同第5章的引言部分中相同。在本文中，我们也对虚拟化的无线网络中资源分配问题进行研究。在资源拍卖架构的基础上，我们针对服务供应商提出了考虑缓存和带宽费用的最佳化出价行为决策计划，将这种方法叫做B-CaB。B-CaB方法的目标是最大化服务供应商的总收益，总收益是由用户服务收益减去资源使用费用，因此B-CaB方法会最优化投标价格及需求的频带数量。这篇文章的主要贡献有以下几点：同时考虑了基础设施和无线电资源。服务供应商通过最佳的数量和投标价格来竞争无线电资源和带宽。基础设施供应商会收取缓存费用，服务供应商使用存储器或者存储空间需要向基础设施供应商交费。将出价行为最优化问题建模为具有未知参数的马尔可夫决策过程（MDP-UP）。马尔可夫过程中的转移概率不总是已知的或者可观测到的，因此，在我们的构想中使用未知参数，而不是像现在大多数的研究中简单的假设是已知的情况。再将具有未知参数的马尔可夫决策过程建模为部分可观测马尔可夫决策过程（POMDP）来进行有效地求解。大量的仿真结果表明与现存的方法相比我们提出的方法有重大的性能提高，通过我们提出的方法收益可以提高60%。6.2系统模型这一小节将会展示网络架构及服务供应商在资源拍卖博弈中对频带和缓存资源的竞争，服务供应商始终希望最大化其自身收益同时最小化租用基础设施供应商的资源用于向用户提供服务而产生的费用，所以决策最优化需要考虑多个因素。收益是从用户数据传输而收取的，这样，服务供应商更加希望获得频带资源并且如果服务供应商有很多数据等待需要传输，那么就会出一个相对较高的竞拍出价，反之亦然。除了使用频带的费用，服务供应商还需要根据其队列的长度支付缓存的费用，这是因为在传输队列中的数据是在基础设施供应商的缓存中进行缓冲。该缓冲是另外一种虚拟资源，并且可以向基础设施供应商提供收入。网络动态性质也需要考虑到，一个服务供应商也许没法观测到其他服务供应商给出的竞拍出价以及他们需要频带的数量。由于动态无线信道状态，总的可用频带的数量会发生变化。所以，服务供应商应该采用一种具有学习能力的自适应决策决定的算法来最大化其收益。62 第6章无线虚拟网络中缓存及频谱资源的联合管理本小节接下来将主要讨论了网络架构、服务模型以和收益及费用模型。6.2.1网络架构虚拟化的无线网络由三个逻辑层组成：InP层、SP层和移动用户层。移动用户向服务供应商发送他们的数据传输请求，服务供应商负责根据用户的传输需求向他们提供定制化的服务，基础设施供应商拥有基础设施和资源，并且负责将资源分配给服务供应商。这个架构的基础设施供应商和服务供应商之间采用了一个竞拍机制。基础设施供应商将其所拥有的资源分配给服务供应商，而不会直接运载用户的通信量。这种分配是基于最高的竞拍价格原则，为了获得其最大化收益。为简单起见，在这章中，我们只考虑将缓存容量作为典型的基础设施资源、频带作为典型的无线电资源。本章讨论的内容主要研究服务供应商的行为，因为服务供应商是最新被提出来的并且是虚拟化无线网络中最大的挑战。而且，服务供应商的性能对于整个系统有很重要的影响。服务供应商根据用户的服务需求以及基础设施供应商的可用资源来定制化他们自己的虚拟网络。为了实现最大化其自身收益的目标，每个服务供应商收集用户服务和基础设施供应商的资源的信息来做出最优决策，决定要竞拍的资源数量以及竞拍价格。成功竞拍到的资源会用于向用户提供服务。注意本文中的可用的资源会随着时间变化，由于其他服务供应商行为的动态性质、服务传输需求以及无线信道状态。所以，服务供应商的最优决策也需要是动态且自适应的。6.2.2服务模型假设整个时间线被分割成K个时间长度均为的时隙，令t表示第kk1kK个时隙的起始时刻，在这个时隙中，服务供应商可以竞拍资源。那么可以得到tt。同时，还需假设所有的数据是以固定大小的数据包进行kk1传输的。数据包的到达过程可以建模为一个期望到达速率为的泊松过程，那么在时段中有l个数据包到达缓存处等待传输的概率为NlNPlNe（6-1）l!N因为数据包都具有相同的数据包大小，所以可以简单地用数据包的数量lk来代表在第k个时隙服务供应商需要传输的队列长度。由于基础设施供应商的缓存资源是有限的，每个服务供应商可占用的最大队列长度为l，并且针对max任何0kK都满足0lkl。max63 北京工业大学工学硕士学位论文在时刻t，为了满足用户的数据传输需求，服务供应商向基础设施供应商要k求获得nk个频带。然而，如果所有服务供应商的nk的总和超过了基础reqreq设施供应商所拥有的可用频带波段的总数n，那么一些只具有相对较低地竞total拍价格的频带波段分配需求会被拒绝。用nk来表示在第k个时隙分配给服alloc务供应商的频带波段数量，且0nknk。allocreq6.2.3收益及费用模型根据上文提及的，服务供应商可获得的收益来源于为移动用户提供数据传输服务。用R来表示传输每个数据包可获得的收益，令ck表示在时刻transbandt服务供应商给出的用于竞争nk个频带波段的竞拍价格。在每个时隙，kreq服务供应商根据当前的队列长度lk和nk以及历史决定和系统状态来alloc选择出自己的ck和nk，这一部分将在之后的小节中进行讨论。在bandreq每个时隙，服务供应商要向基础设施供应商交付每个缓存数据包的单元缓存费用c，所以在时刻t服务供应商需要向基础设施供应商交付clk的缓cachekcache存费用。在第k个时隙，服务供应商需要交付的总费用可以表示为cbandkccachelk。6.3具有未知参数的马尔可夫决策过程建模马尔可夫决策过程可以使决策者连续地或者周期地进行观察并做出动作选择，在每个时刻，决策者根据当前的系统状态选择出一个动作，之后系统状态发生变化进入下一时刻。通过马尔可夫决策过程可以使决策者获得最大化的长期收益，使决策者可以均衡直接回报和长期收益，从而在整个运行期间获得最大的收益。在这一小节中，将频谱管理问题建模为一个具有未知参数的马尔可夫决策过程，下面进行详细讨论。A.构建系统状态在时刻t，用sk来表示服务供应商的系统状态。系统状态sk是一个二k维离散随机变量，第一个元素是服务供应商的队列长度lk，lkL，其中L是lk的状态空间，并且Ll0,1,2,,。第二个元素是在时段tt,内分maxkk1配给服务供应商的频带波段的数量nk，nkN，其中N是allocallocallocalloc64 第6章无线虚拟网络中缓存及频谱资源的联合管理nkalloc的状态空间，并且Nalloc0,1,2,,nreqk。令S表示sk的状态空间。那么，在时刻t服务供应商的系统状态可以表示为ksklkn,allock（6-2）LNalloc其中代表了一个集合的大小。在初始化过程中，lk只根据用户的需求来决定，并且lnk0。Nalloc当k1时，lk根据用户的需求l、通过分配给服务供应商的频谱带宽传输的N数据的数量以及在时刻t的队列长度lk1进行变化。分配给服务供应商的频k1谱波段nk是由拥有频谱波段的基础设施供应商根据所有的服务供应商的alloc投标价格来决定的。因此，服务供应商的队列长度lk可以表示为lklNTlk1l（6-3）其中lnkB/D是由于通过分配给服务供应商的频谱带宽进行传输而Talloc减少的队列长度。B是在每个频谱波段上可获得的数据速率，D是数据包大小。B.建立动作和策略在每个时刻t，服务供应商根据当前的系统状态sk选择一个动作来竞拍k基础设施供应商拥有的频谱带宽资源。令ak表示在时刻t服务供应商选择的k动作，A表示所有可能的动作。ak可以表示为aknreqkc,bandk（6-4）令Nnreq0,1,2,,max表示nkreq的状态空间，Cband表示ckband的状lDmax态空间，其中n，D是数据包大小，B是在每个频谱波段上可获得的maxB数据速率。所以，nkN，ckC，ANC。reqreqbandbandreqband系统的策略u由所有在时刻t执行的动作ak组成，令U表示所有可选择k的策略的集合。用u表示可以获得最大系统收益的最优策略。C.状态转移概率系统的一步转移概率受到t时刻选择的动作ak的影响，从状态sk转移k到状态sk1的转移概率可以表示为65 北京工业大学工学硕士学位论文aPijs,Probsk.1sskj|siakailk1ljinallock1nallocj,,|lklnallocknallociProb.nreqknreqi,cbandkcbandi,Probn.allock1nallocj,,|nallocknallocinreqknreqi,cbandkcbandi,Problk.1lnji|allocknalloci,lkl（6-5）其中代表了一个随机变量的现实值，用aaPijsn,PallocijP,ln|allocij,（6-6）来表示缩写。a转移概率Pnallocij,代表了在动作akai，即nreqknreqi,且cbandkcbandi,的作用下，从状态nallocknalloci,转移到状态nallock1nallocj,的转移概率。因为nkalloc是由基础设施供应商决定的，所以nk和nk1之间是彼此独立的。基础设施供应商比较所有服务供应allocalloc商的竞拍价格，将频谱带宽资源分配给选择最高的竞拍价格的服务供应商。所以，服务供应商可能会不能得到其需求的那么多频谱带宽资源。令Pc表示服bidband务供应商选择平均竞拍价格ck成功竞争到频谱波段的概率。为了简化情况，band假设基础设施供应商向服务供应商收取的每个频谱波段的竞拍价格作为服务供应商对于每个频谱波段竞拍的平均价格，即ckck/nk。子状bandbandreq态nk的转移概率可以表示为allocaaPnnij,Pjallocallocnallocj,nnnreqi,allocj,（6-7）Pallocj,p1Ppbidavgi,,bidavginreqi,其中pc/n。avgi,,bandreqi转移概率Pln|allocij,代表了从状态lkli转移到lk1lj的转移概率。lk1依赖于lk和nkalloc1。已知lk1lNlkl，并且lnB/D，那么转移概率Pij,可以表示为Tallocj,ln|alloc66 第6章无线虚拟网络中缓存及频谱资源的联合管理Pln|ij,allocnallocj,nnnreqi,allocj,allocj,Pbidpavgi,,1PbidpavgiPlNj,llmaxnallocj,Nl,NLNnreqi,lniallocj,BDl/Nlmax0,lljmax（6-8）D.提出目标和收益在时段tt,服务供应商获得的直接回报可以表示为kk1RkRtransmaxlkn,allock1B/Dcbandkccachelk（6-9）提出方法的目标在于在整个时间线上最大化系统的折扣收益，令01为折扣因子，那么最优化目标表达式可以写为T1TkRmaxRtotalmaxRk（6-10）uUk0并且，最优策略可以表示为uRargmax（6-11）totaluU6.4部分可观测马尔可夫决策过程建模在上一小节中，将频谱带宽资源的竞拍问题建模为一个马尔可夫决策过程，然而，针对所研究的问题不能直接应用现存的方法来解决，因为在我们的模型中有一个未知参数Pc。为了解决这一问题，将具有未知参数的马尔可夫决bidband策过程模型建模为扩展的部分可观测马尔可夫决策过程模型。用元组SAPROQ,,,,,来代表再次建模的部分可观测马尔可夫决策过程模型的状态空间、动作空间、状态转移概率矩阵、收益函数、观测空间以及观测概率矩阵。为了计算状态空间，用Pcˆbidband来表示Pcbidband的离散形式。Pcˆbidband的值域为W，这个值域的大小为WW。换言之，未知参数空间为W。bidbidbidbid那么基于S，A，R和W，可以将S，A，R，O和Q表示为bid67 北京工业大学工学硕士学位论文SSW,bidAA,RR,（6-12）OS,IsQPokoskji|,sIs其中Pokoskji|s是在观测为oj的情况下状态为si的概率，并且Is是大小为SS的单位矩阵。size转移矩阵P中的元素可以通过下式进行计算：aaPsij,Pijs,wwi,jPsk1sskj|saki,ai（6-13）Psk1swkj,1wskj|swki,waki,aiPwk1wwkj|waki,aia转移概率矩阵P中第i行，第j列的元素可以用Pij,来表示。在公式s（6-13）中，sk和sk1是扩展的部分可观测马尔可夫决策过程模型的状态，sk和sk1是原始的具有未知参数的马尔可夫决策过程的状态，wk和wk1是未知参数的状态，并且wkwk,1Wbid。wwij,是克罗内克函数，定义为如果ww，ww,1，否则ww,0。ijijij扩展的部分可观测马尔可夫决策过程模型可以通过现存的最优的或者近似[69][70]最优的算法解决。6.5仿真结果及分析在本小节中，展示大量的仿真结果图，用于证明应用的具有未知参数的马尔可夫决策过程模型可以实现资源的动态分配，并能够有较好的系统性能。在我们的仿真中，假设整个系统运行过程中共有20个时隙，每个时隙都有400个物理资源块进行分配。设B15，1，D16，0.8，18。在每个时隙中，我们考虑的服务供应商可获得的平均收益如图6-1所示。通过图6-1可以看出，每个时隙中应用具有未知参数的马尔可夫决策过程模型比应用现有的方法可以使考虑的服务供应商获得更高的平均收益，实现了预期目标。68 第6章无线虚拟网络中缓存及频谱资源的联合管理图6-1每个时隙服务供应商可获得的平均收益Figure6-1AveragerewardoftheSPineachtimeslot图6-2每个时隙基础设施供应商可获得的平均收益Figure6-2AveragerewardoftheInPineachtimeslot本章研究的具有未知参数的马尔可夫决策过程模型主要是为了在资源动态分配的过程中使服务供应商获得最大化的收益，基础设施供应商的收益没有进行详细的考虑。在每个时隙中，我们考虑的基础设施供应商可获得的平均收益如图6-2所示。通过图6-2可以看出，虽然没有针对基础设施供应商的收益进行考虑，69 北京工业大学工学硕士学位论文但是在每个时隙中通过使用具有未知参数的马尔可夫决策过程模型比使用现有方法能够使基础设施供应商获得更高的平均收益。对于队列长度来说，数据到达速率对其具有很重要的影响。因此，数据到达速率对于系统的状态也会有一定的影响。此时B、D、以及的值不变。数据到达速率不同的情况下服务供应商可以获得的平均收益如图6-3所示。通过图6-3可以看出，随着数据到达速率的变化，服务供应商的平均收益也随之变化，当数据到达速率20时可以获得最大收益。由于数据到达速率越快，队列长度增长的越快，为了能够尽快传输队列中的数据，服务供应商就会选择更高的价格去竞争资源，因此当数据到达速率超过一定范围时，服务供应商的收益会随之降低。图6-3数据到达速率不同的情况下服务供应商获得的平均收益Figure6-3TheaveragerewardoftheSPwithdifferentdataarrivingrate同样，不同的数据到达速率对于基础设施供应商的收益也会产生一定的影响。数据到达速率不同的情况下基础设施供应商可以获得的平均收益如图6-4所示。通过图6-4可以看出，随着数据到达速率的不断增长，基础设施供应商的平均收益也在不断增长。这是因为数据到达速率越快，队列长度增长的越快，为了能够尽快传输队列中的数据，服务供应商就会选择更高的价格去竞争资源，这样基础设施供应商就能获得更多的租金，那么基础设施供应商的平均收益也就随之增长。70 第6章无线虚拟网络中缓存及频谱资源的联合管理图6-4数据到达速率不同的情况下基础设施供应商获得的平均收益Figure6-4TheaveragerewardoftheInPwithdifferentdataarrivingrate图6-5每个频带上可以达到的数据速率B不同的情况下服务供应商的平均收益Figure6-5TheaveragerewardoftheSPwithachievabledataoverasinglebandB每个频带上可以达到的数据速率B会对队列长度以及服务供应商的收益产生一定的影响。此时D、、和的取值与第一部分仿真设置相同。对于每个频带上可以达到的数据速率B的不同情况，服务供应商可以获得的平均收益如图6-5所示。通过图6-5可以看出，随着B的增长，服务供应商可以获得的平均71 北京工业大学工学硕士学位论文收益也快速的增长。这是因为当B越来越大时，能够传输更多的数据包，那么服务供应商就能够从用户处获得更多的收益。同时也可以看出，使用具有未知参数的马尔可夫决策过程模型比使用现有方法能够使服务供应商获得更高的平均收益。图6-6每个频带上可以达到的数据速率B不同的情况下基础设施供应商的平均收益Figure6-6TheaveragerewardoftheInPwithachievabledataoverasinglebandB同样的，每个频带上可以达到的数据速率B会对基础设施供应商的平均收益也产生一定的影响。对于每个频带上可以达到的数据速率B不同的情况，基础设施供应商可以获得的平均收益如图6-6所示。通过图6-6可以看出，使用具有未知参数的马尔可夫决策过程模型比使用现有方法能够使基础设施供应商获得更高的平均收益。并且，当B14时，基础设施供应商的平均收益随着B的增长而快速的增长；当B14时，基础设施供应商的平均收益随着B的增长而缓慢增长。这是因为当B可以满足服务供应商的需求时，服务供应商会给出最高的租金，而之后B再增大，服务供应商并不需要这么高的数据传输速率，因此也不会给出更高的租金，基础设施供应商可获得的收益也就不会快速增长了。6.6本章小结本章中，讨论了将具有未知参数的马尔可夫决策过程模型应用到无线虚拟网络中缓存及频谱资源联合管理分配问题中。对于服务供应商来说，向基础设施供应商租用的资源不仅有频谱资源，为了缓存用户要求传输的数据还需要租用基础设施供应商的缓存资源。由于模型中有未知参数，将其建模成为具有未知参数的72 第6章无线虚拟网络中缓存及频谱资源的联合管理马尔可夫决策过程模型，为解决这一问题，又将具有未知参数的马尔可夫决策过程模型建模为扩展的部分可观测马尔可夫决策过程模型。通过大量的仿真结果可以表明，基于具有未知参数的马尔可夫决策过程模型的方法与现有方法比较可以使服务供应商获得更高的收益，提高了整体的性能。73 北京工业大学工学硕士学位论文74 结论结论随着人们对于无线网络通信的速率要求越来越高，各种无线通信业务的产生发展，导致对于无线频谱资源的需求越来越多，但是无线频谱资源的稀缺性及其不可再生性使其成为了无线通信发展的一个瓶颈。如何高效地利用稀有的无线频谱资源成为人们关注的问题。为了能够提高无线频谱资源的利用率，目前也已展开了很多的研究。本文考虑在多跳认知蜂窝网络和无线虚拟网络中的资源管理方法。在多跳认知蜂窝网络中，考虑频谱资源紧缺以及递送信息延迟问题，提出了一种以信息为中心的多跳认知蜂窝网络架构。在无线虚拟网络中，首先考虑了资源切换时产生的费用及功耗，引入了优先权概念来解决这一问题，使资源在低频切换的前提下得到最大化的使用；其次考虑了将缓存资源和频谱资源联合管理，综合考虑降低两种资源的使用费用，目标在于降低资源使用费用，提高服务供应商的收益。在以上问题的研究中，对于资源的管理分配问题都是通过POMDP模型进行解决，并通过Matlab仿真平台进行仿真，研究系统的性能。本文工作的创新之处可以归纳为以下几点：提出了以信息为中心的多跳认知蜂窝网络架构，引入了“以信息为中心”的概念来减少网络负载并描述用户数据的优先权特性。考虑到用户的分布，根据期望的命中概率度量提出了主动缓存将需求量大的内容推送到离用户较近的路由器中。在多跳认知蜂窝网络中提出了动态频谱分配方法来最优匹配最合适的无线链路的带宽，考虑未知的、变化的网络参数以及路由器端的队列状态。将多跳认知蜂窝网络中的频谱分配问题建模成为一个带有未知参数的马尔可夫决策过程，代替了原有的完美参数值的假设。再将其建模成为一个部分可观测马尔可夫决策过程，从而可采用已有算法来解决频谱分配问题。在无线虚拟网络中考虑资源切换时产生的费用及功耗，引入优先权的概念降低频率切换的频率。在无线虚拟网络中同时考虑了基础设施和无线资源。服务供应商通过最佳的数量和投标价格来竞争无线电资源和带宽。基础设施供应商会收取缓存费用，服务供应商使用存储器或者存储空间需要向基础设施供应商交费。75 北京工业大学工学硕士学位论文在无线虚拟网络中，将出价行为最优化问题建模为具有未知参数的马尔可夫决策过程。马尔可夫过程中的转移概率不总是已知的或者可观测到的，因此，在我们的构想中使用未知参数，而不是像现在大多数的研究中简单的假设是已知的情况，之后再将具有未知参数的马尔可夫决策过程建模为一个部分可观测马尔可夫决策过程来有效地解决。本文主要对多跳认知蜂窝网络和无线虚拟网络中的资源管理分配问题进行了研究，达到了预期的目的，但是仍有一些不足，在以后的研究工作中还需要完善：1.本论文考虑多跳认知蜂窝网络时，只针对网络中频谱资源紧缺和递送信息延迟问题进行了研究，没有考虑存在于蜂窝网络中的干扰问题。应在考虑如何减少干扰的前提下对资源管理进行下一步研究。2.在无线虚拟网络中，只针对服务供应商进行研究，资源分配时运用的方法是以最大化服务供应商的收益为目标，没有以基础设施供应商为主要研究对象。应针对基础设施供应商进行研究，讨论其在资源分配时根据什么样的标准将资源分配给服务供应商以达到最大化自身收益的同时还能够使无线频谱资源以及缓存资源得到充分的使用。76 参考文献参考文献[1]夏金祥,范平志.无线电频谱利用面临的问题、机遇与对策[J].中国无线电,2006.[2]FederalCommunicationCommission,SpectrumPolicyTaskForce,Rep.ETDocketno.2002.11:02-135.[3]BarveSunitaS.,DeosarkarS.B.,BhopleSonal.A.CORVUS:Acognitiveradioapproachforusageofvirtualunlicensedspectrum[R].WhitepaperofUCBerkelyandTUBerlin,2004.[4]IFAkyildiz,WYLee,KRChowdhury.CRAHNs:Cognitiveradioadhocnetworks[J].AdHocNetworks,2009,7(5):810-836.[5]郭彩丽,张天魁,曾志民,等.认知无线电技术的国内外发展和研究现状[J].现代电信科技,2006(6):29-34.[6]IEEE802.22workinggrouponwirelessregionalareanetworks,http://www.ieee802.org/22/.[7]赵勇.认知无线电的发展与应用[J].电讯技术,2009,49(6):93-101.[8]BanchsA,SerranoP,PatrasP,etal.ProvidingThroughputandFairnessGuaranteesinVirtualizedWLANsThroughControlTheory[J].MobileNetworks&Applications,2012,17(4):435-446.[9]BhanageG,VeteD,SeskarI,etal.SplitAP:LeveragingWirelessNetworkVirtualizationforFlexibleSharingofWLANs[C]//GlobalTelecommunicationsConference(GLOBECOM2010),2010IEEE.IEEE,2011:1-6.[10]ZakiY,ZhaoL,GoergC,etal.ANovelLTEWirelessVirtualizationFramework[C]//MobileNetworksandManagement-SecondInternationalICSTConference,MONAMI2010,Santander,Spain,September22-24,2010,RevisedSelectedPapers.2010:245-257.[11]ZakiY,ZhaoL,GoergC,etal.LTEmobilenetworkvirtualization[J].MobileNetworks&Applications,2011,16(4):424-432.[12]ZakiY,ZhaoL,GoergC,etal.LTEwirelessvirtualizationandspectrummanagement[C]//WirelessandMobileNetworkingConference(WMNC),2010ThirdJointIFIP.IEEE,2010:1-6.[13]BhanageG,SeskarI,RaychaudhuriD.AvirtualizationarchitectureformobileWiMAXnetworks[J].AcmSigmobileMobileComputing&CommunicationsReview,2012,15(4):26-37.[14]KokkuR,MahindraR,ZhangH,etal.NVS:avirtualizationsubstrateforWiMAXnetworks.[C]//Proceedingsofthe16thAnnualInternationalConferenceonMobileComputingandNetworking,MOBICOM2010,Chicago,Illinois,USA,September20-24,2010.2010:233-244.[15]Shin,DongH,andMichaelB.AstudyofMVNOdiffusionandmarketstructureintheEU,US,HongKong,andSingapore.TelematicsandInformatics24.2,2007:86-100.[16]Ying-DarLin,Yu-ChingHsu,MultihopCellular:ANewArchitectureforWirelessCommunications.IEEEINFOCOM2000,TelAviv,Israel,Mar2000.[17]LiH,LottM,WeckerleM,ZirwasW,SchulzE.Multihopcommunicationsinfuturemobilethradionetworks,Personal,IndoorandMobileRadioCommunications,2002.The13IEEEInternationalSymposiumonVolume:1,15-18Sept.2002,Pages:54-58vol.1.[18]孙静原.多跳蜂窝网——新一代网络雏形[C]//第一届中国高校通信类院系学术研讨会77 北京工业大学工学硕士学位论文论文集.2007.[19]HsuYC,LinYD.Base-centricroutingprotocolformultihopcellularnetworks[C]//GlobalTelecommunicationsConference,2002.GLOBECOM'02.IEEE.2002:158-162.[20]SafwatA.A-cell:anovelmulti-hoparchitecturefor4Gand4G+wirelessnetworks[C]//IEEEVehicularTechnologyConference.2010:2931-2935Vol.5.[21]SendonarisA,ErkipE,AazhangB.Usercooperationdiversity.PartI.Systemdescription[J].IEEETransactionsonCommunications,2003,51(11):1927-1938.[22]FCC-03–322[S][23]KeithNolan.CognitiveRadioWGBrussels2005[C]∥.SDRforum.Brussels,2005.[24]JohnNotor.CognitiveRadioEmergesfromObscurity[C]∥.BWRCcognitiveradioworkshop,January23,2004.[25]AcklandB,RaychaudhuriD,BushnellM,etal.NeTS-ProWiN:Highperformancecognitiveradioplatformwithintegratedphysicalandnetworklayercapabilities",grantedbyNationalScienceFoundation[J].NsfGrantCns,2004.[26]JosephMitola,Cognitiveradio:anintegratedagentarchitectureforsoftwaredefinedradio[M].RoyalInstituteofTechnology,2000.[27]JeffreyHReed,CharlesWBastian,Understandingtheissuesinsoftwaredefinedcognitiveradio[C]∥.Themobileandportableradioresearchgroup,2002.[28]刘敏,岳文静,蒲昱,等.提高认知多跳网络的协作频谱感知方法[J].计算机技术与发展,2016(1).[29]周贤伟,孟潭,王丽娜,等.认知无线电研究综述[J].电讯技术,2006,46(6):1-6.[30]Costa-PerezX,SwetinaJ,GuoT,etal.RadioAccessNetworkVirtualizationforFutureMobileCarrierNetworks[J].IEEECommunicationsMagazine,2013,51(7):27-35.[31]冯志勇,冯泽冰,张奇勋.无线网络虚拟化架构与关键技术[J].中兴通讯技术,2014(3):16-21.[32]YunD,YiY.Virtualnetworkembeddinginwirelessmultihopnetworks[C]//Proceedingsofthe6thInternationalConferenceonFutureInternetTechnologies.ACM,2011:30-33.[33]FordeTK,MacalusoI,DoyleLE.Exclusivesharing&virtualizationofthecellularnetwork[C]//NewFrontiersinDynamicSpectrumAccessNetworks(DySPAN),2011IEEESymposiumon.2011:337-348.[34]http://baike.baidu.com/link?url=NhEEcNlaOnrI5LKVHvwHED8H_7Z_1XDOm6v4124xGpRoG-MfonZKWvfsttE7qiOGPRe3GIa6e8vI0Qnj00eBS_.[35]thePOMDPpagehttp://www.pomdp.org/tutorial/mdp.html.[36]JieLiu.OptimalUserAuthenticationSchemesinWirelessAdhocNetworks.MasterthesisofCarletonUniversity,2007:21-38[37]桂林,武小悦.部分可观测马尔可夫决策过程算法综述[J].系统工程与电子技术,2008,30(6):1058-1064.[38]WangX,ChenM,TalebT,etal.Cacheintheair:Exploitingcontentcachinganddeliverytechniquesfor5Gsystems[J].IEEECommunicationsMagazine,2014,52(2):131-139.[39]YuYT,TandionoC,LiX,etal.ICAN:Information-CentricContext-AwareAd-HocNetwork[C]//Computing,NetworkingandCommunications(ICNC),2014InternationalConferenceon.IEEE,2014:578-582.[40]PsarasI,WeiKC,PavlouG.In-NetworkCacheManagementandResourceAllocationforInformation-CentricNetworks[J].IEEETransactionsonParallel&DistributedSystems,2014,78 参考文献25(11):2920-2931.[41]AhmedR,BariMF,ChowdhurySR,etal.αRoute:AnamebasedroutingschemeforInformationCentricNetworks[J].Proceedings-IEEEINFOCOM,2013:90-94.[42]SarolahtiP,OttJ,KangasharjuJ.Locationsvs.identitiesininternetcontent:Applyinginformation-centricprinciplesintoday'snetworks[J].CommunicationsMagazineIEEE,2012,50(12):54-59.[43]ZhangZ,LongK,WangJ.Self-organizationparadigmsandoptimizationapproachesforcognitiveradiotechnologies:asurvey[J].IEEEWirelessCommunications,2013,20(2):36-42.[44]SenguptaS,SubbalakshmiKP.Openresearchissuesinmulti-hopcognitiveradionetworks[J].IEEECommunicationsMagazine,2013,51(4):168-176.[45]SiP,JiH,YuFR,etal.OptimalCooperativeInternetworkSpectrumSharingforCognitiveRadioSystemsWithSpectrumPooling[J].IEEETransactionsonVehicularTechnology,2010,59(4):1760-1768.[46]PanM,ZhangC,LiP,etal.SpectrumHarvestingandSharinginMulti-HopCRNsUnderUncertainSpectrumSupply[J].IEEEJournalonSelectedAreasinCommunications,2012,30(2):369-378.[47]YueH,PanM,FangY,etal.SpectrumandEnergyEfficientRelayStationPlacementinCognitiveRadioNetworks[J].IEEEJournalonSelectedAreasinCommunications,2013,31(5):883-893.[48]LiM,LiP,HuangX,etal.EnergyConsumptionOptimizationforMultihopCognitiveCellularNetworks[J].IEEETransactionsonMobileComputing,2015,14(2):358-372.[49]ZhouY,LiY,SunG,etal.GameTheoryBasedBandwidthAllocationSchemeforNetworkVirtualization[C]//GlobalTelecommunicationsConference(GLOBECOM2010),2010IEEE.IEEE,2010:1-5.[50]WenH,TiwaryPK,Le-NgocT.Currenttrendsandperspectivesinwirelessvirtualization[C]//MobileandWirelessNetworking(MoWNeT),2013InternationalConferenceonSelectedTopicsin.IEEE,2013:62-67.[51]LiuB,TianH.ABankruptcyGame-BasedResourceAllocationApproachamongVirtualMobileOperators[J].CommunicationsLetters,IEEE,2013,17(7):1420-1423.[52]YangM,LiY,JinD,etal.Opportunisticspectrumsharingbasedresourceallocationforwirelessvirtualization[C]//InnovativeMobileandInternetServicesinUbiquitousComputing(IMIS),2013SeventhInternationalConferenceon.IEEE,2013:51-58.[53]YangM,LiY,LiuJ,etal.Opportunisticspectrumsharingforwirelessvirtualization[C]//WirelessCommunicationsandNetworkingConference(WCNC),2014IEEE.IEEE,2014:1803-1808.[54]HamdiK,ZhangW,LetaiefK.OpportunisticspectrumsharingincognitiveMIMOwirelessnetworks[J].WirelessCommunications,IEEETransactionson,2009,8(8):4098-4109.[55]ZhangX,LiY,JinD,etal.Efficientresourceallocationforwirelessvirtualizationusingtime-spacedivision[C]//WirelessCommunicationsandMobileComputingConference(IWCMC),20128thInternational.IEEE,2012:59-64.[56]ZakiY,ZhaoL,GoergC,etal.LTEmobilenetworkvirtualization[J].MobileNetworksandApplications,2011,16(4):424-432.[57]KokkuR,MahindraR,ZhangH,etal.NVS:asubstrateforvirtualizingwirelessresourcesincellularnetworks[J].Networking,IEEE/ACMTransactionson,2012,20(5):1333-1346.79 北京工业大学工学硕士学位论文[58]KokkuR,MahindraR,ZhangH,etal.CellSlice:CellularwirelessresourceslicingforactiveRANsharing[C]//CommunicationSystemsandNetworks(COMSNETS),2013FifthInternationalConferenceon.IEEE,2013:1-10.[59]JonathanVDB,AhmadiH,DoyleLE.ADynamicEmbeddingAlgorithmforWirelessNetworkVirtualization[C]//VehicularTechnologyConference(VTCFall),2014IEEE80th.IEEE,2014:1-6.[60]LiangC,YuFR.WirelessNetworkVirtualization:ASurvey,SomeResearchIssuesandChallenges[J].CommunicationsSurveys&TutorialsIEEE,2014,17(1):358-380.[61]ProticJ,TomasevicM,MilutinovicV.Asurveyofdistributedsharedmemorysystems[C]//SystemSciences,1995.ProceedingsoftheTwenty-EighthHawaiiInternationalConferenceon.1995:74-74.[62]SmithJE,NairR.Thearchitectureofvirtualmachine[J].Computer,2005,38(5):32-38.[63]DimakisAG,RamchandranK,WuY,etal.ASurveyonNetworkCodesforDistributedStorage[J].ProceedingsoftheIEEE,2011,99(3):476-489.[64]RajaravivarmaV.Virtuallocalareanetworktechnologyandapplications[J].ProceedingsofSoutheasthernSymposiumonSystemTheory,1997:49-52.[65]TakedaT,InoueI,AubinR,etal.Layer1virtualprivatenetworks:serviceconcepts,architecturerequirements,andrelatedadvancesinstandardization[J].IEEECommunicationsMagazine,2004,42(6):132-138.[66]L.AnderssonE,E.RosenE.FrameworkforLayer2VirtualPrivateNetworks(L2VPNs)",RFC4664[C]//RFC4664,September2006.[PWE3L2TP]W.Townsley,"PseudowiresandL2TPv3",WorkinProgress.2006.[67]CallonR,CallonR.AFrameworkforLayer3ProviderProvisionedVirtualPrivateNetworks[J].HeiseZeitschriftenVerlag,2005(August):304.[68]HeldG.VirtualPrivateNetworking:AConstruction,OperationandUtilizationGuide[J].InternationalJournalofMassCustomisation,2015,5(1):482–503.[69]RensG,FerreinA.Belief-nodeCondensationforOnlinePOMDPAlgorithms*[C]//ArtificialIntelligenceandRoboticsspecialtrackatIEEEAFRICON-2013.2013:1-5.[70]TakitaK,HagiwaraM.APulseNeuralNetworkLearningAlgorithmforPOMDPenvironment[C]//NeuralNetworks,2002.IJCNN.Proceedingsofthe2002InternationalJointConferenceon.IEEE,2002:1643-1648.80 攻读硕士学位期间所发表的学术论文攻读硕士学位期间所发表的学术论文1YuweiYan,PengboSi,YanhuaZhang,B-CaB:OptimizingtheSP’sBiddingforCacheandBandResourcesinVirtualizedWirelessNetworks[C]//2016InternationalConferenceonNetworkandInformationSystemsforComputers(ICNISC).IEEEComputerSociety.2YuweiYan,PengboSi,YanhuaZhang,ResourceAllocationinWirelessVirtualizationwithPOMDPFramework,HighTechnologyLetters,2016（审稿中）.3张延华，闫玉玮，司鹏搏，李秋然，张倩，孙恩昌，孙艳华，杨睿哲，王朱伟，中心多跳认知蜂窝网络中的信息主动缓存的频谱管理方法[P]，发明专利，已通过初审，申请号201510243081.2，2015.8。4张延华，李萌，闫玉玮，孙恩昌，司鹏搏，杨睿哲，孙艳华,基于POMDP的受控无线网络系统动态资源分配方法[P]，发明专利，已通过初审，申请号201510271561.X，2015.10。5司鹏搏，张倩，刘佳，闫玉玮，张延华，孙恩昌，孙艳华，杨睿哲，移动云视频传输中的计算和无线资源协同调度方法[P]，发明专利，已通过初审，申请号201410146321.2，2014.6。81 北京工业大学工学硕士学位论文82 致谢致谢在论文即将完成之际，三年的硕士研究生学习生活也即将结束，在此要特别感谢这三年来对我给予了帮助的老师、同学和家人。首先要感谢我的家人，在我读研期间对我给予无条件的支持与鼓励，在生活中更是给予了我无微不至的关怀，让我一直有前进的动力，不断地让自己得到进步。尤其要感谢我的父母，这些年来一直对我无私的奉献着，不求回报，让我有勇气面对生活中的一切。其次要感谢张延华老师和司鹏搏老师，张延华老师在我考研时给予了我莫大的帮助和鼓励，让我在失去灰心丧气时重拾信心。进入研究生学习生活后，从张老师身上学习到的不仅是学术的方法，还学到了为人处世的道理，这些道理将使我终身受益。司鹏搏老师在我的学业上给予了我极大的帮助，就像指明灯一样让我在学业上找到了前进的方向，无论是论文还是专利，从选题构思、框架设计、仿真验证到定稿修改，司老师都给予了我耐心、细心的指导。平时司老师细致地工作态度也深深地影响了我，让我认识到自己做事急躁不够细致的缺点。司老师平易近人、为学生着想的态度让我感受到了老师的关心，这三年的学习生活特别要感谢司老师的帮助，在今后的生活中，我也会以司老师为榜样，不断地进步。此外，还要感谢实验室的孙恩昌老师、孙艳华老师等其他几位老师在这三年中对我的帮助。感谢实验室李萌、张倩、杨亿、李秋然等同学们，感谢大家在这三年来的共同陪伴与进步，让我在这三年里遇到困难时能够得到你们的帮助，使我在有负担时你们帮我分担，有快乐时你们与我分享。还要感谢宿舍的孙盼盼、贵明俊和石慧，感谢你们和我之间就像亲人一样，包容我的缺点，在宿舍时我们拥有的都是快乐的时光。最后要感谢北京工业大学，从本科到研究生这七年的生活，在这个校园里都给我留下了美好的回忆，也要感谢学校这么多年的培养。特别地，要感谢在百忙之中抽出时间来审阅我论文的各位老师！83

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 92



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

多跳认知蜂窝网络及无线虚拟化网络中基于pomdp模型的资源管理研究

多跳认知蜂窝网络及无线虚拟化网络中基于pomdp模型的资源管理研究

最近更新

大家都在看

相关文章

相关标签