基于数据挖掘技术的物流信息系统的分析与实现

基于数据挖掘技术的物流信息系统的分析与实现

ID:32059992

大小:15.32 MB

页数:60页

时间:2019-01-31

上传者:U-10915
基于数据挖掘技术的物流信息系统的分析与实现_第1页
基于数据挖掘技术的物流信息系统的分析与实现_第2页
基于数据挖掘技术的物流信息系统的分析与实现_第3页
基于数据挖掘技术的物流信息系统的分析与实现_第4页
基于数据挖掘技术的物流信息系统的分析与实现_第5页
资源描述:

《基于数据挖掘技术的物流信息系统的分析与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

ResearchAndAccomplishmentOfIntegratedFrameworkForLogisticInformationSystemInTobaccoIndustryBasedOnDataMiningABSTRACTAsinformationtechnologyiSchangingthewholeworldeconomic,tobaccoindustrywhichiSamainbusinessofChineseeconomicshouldputawayitsoldworkstyle.ItshouldanewinformationsystemwhichiSmadeupofsale,order,depot,sortanddelivery.Theinformationsys.terncouldsavethecostoftobaccoindustryandimproveprocessingaccuracy.Besides,itcouldhelptoknowthechangeofthemarket,SOtheadministratorcouldchangetheirmanagementtogetmoreeconomicadvantage.ThePaperfirstintroducesthedevelopmentofphysicaldistributionbothinandoutChina.Researchandapplicationofphysicaldistributionintobaccoindustryisthemainmatterofthepaper,andthepapershowthenewthinkingandpoint.Thepaperproposesaintegratedframeworkforlogisticinformationsystemintobaccoindustry.Itcouldtakepracticeproiectforexampletointroduceseachsubsystemandshowitsadvantagefinally.ProductionmanagementinformationsystemandVehicleRoutingsystemisthemaininvestigationobjectofthepaper,SOthepaperfirstintroducesthetheory,developmentandkeytechnologyofdataminingtosetuptheorysupportforproductionmanagementinformationsystem.Thenthepapercompletelyproposesaintegratedframeworkforlogisticinfolrmationsystemintobaccoindustryincludingitsdesignformaindatabase,dataanalysis,anditsapplication,andgivesmoreattentiontoapplyantcolonyalgorithmtovehicleroutingproblemintheintegratedframeworkforlogisticinfcIrmationsystem.Finally,thePapersumsuptheintegratedframeworkforlogisticinformationsystemintobaccoindustryandgivesaforesight.Thesuccessfulapplicationofthisframeworkshowsthatitcouldhelptoimproveworkemciency,diminishthenumberoftheworkersandworks.saveproductioncost,andofferkeydataofmarketsalesforadministratorstomakedecision.Thisframeworkalsounifydataflow,productionflowandcontrolflow,andallofitsadvantagesshowthatitshouldbeinvestedbothinacademicvalueandapplicationvalue.KEYWORDS:cigarettedistributioncenter:datamining;antcolonyalgorithm;vehicleRoutingProblem. 声明独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期:型坚兰:苎!关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在——年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:日期:型翌:兰:苎呈日期:型堕兰!圣呈 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文20081.1课题背景1.1.1现代物流的基本概念第一章绪论信息技术的高速发展使得企业能够更迅速地获得信息,顾客对产品的要求逐渐趋于复杂化、多样化和个性化,商品市场开始由卖方市场向买方市场转移。企业为了获取和保持竞争力,必须不断地缩短产品开发研制时间、改进产品质量、降低产品成本、缩短交货周期。英国著名供应链管理专家马丁克里斯托弗(MartinChristopher)预言:“2l世纪的竞争将不是单个企业之间的竞争,而是供应链与供应链之间的竞争",“市场上将只有供应链而没有企业”。物流作为供应链管理的重要组成部分,对供应链管理的成败起到至关重要的作用【lJ。企业可以通过优化物流管理流程大幅度降低物流成本,从而降低产品的总成本,确立企业的成本领先优势,进而提升企业的竞争力。物流概念最早是在美国形成的,最初被称为“PhysicalDistribution",译成汉语是“事物分配”或“货物配送”。1986年美国物流管理协会正式定义物流的名称从“PhysicalDistribution”改为“Logistics”即现代物流,并将其定义为“物流是满足顾客需要为目的,对货物、服务及相关信息从起源地到消费地的有效率、有效益的流动和储存进行计划、执行和控制的过程"。随着科技进步与企业需求的改变,现代物流不仅包括生产前和生产过物质、信息的流通过程,而且还延伸到生产后的销售、售后服务等领域[21。当前现代物流最新定义为:“物流是供应链活动的一部分,为满足顾客的需要对商品、服务及相关信息从生产地到消费地的高效、低成本流动和储蓄而进行的规划、实施、控制的过程。"现代物流系统是一个庞大复杂的系统,特别是全程物流,包括运输、仓储、配送、搬运、包装和物流再加工等诸多环节,其主要功能是实现运输的合理化、仓储自动化、包装标准化、装卸机械化、加工配送一体化和信息管理网络化【引。现代物流提出了系统化物流或者综合物流的概念,具体地说,就是使物流向两头延伸并加进了新的内涵,使社会物流与企业物流有机结合在一起,从采购物流开始经过生产物流,再进入销售物流;与此同时,要经过包装,运输,仓储,装卸加工配送到达用户、消费者手中;最后通过回收物流将企业所需要的可重复利用品回收。现代物流是包含了产品整个物理性的流通全过程。现代物流的本质是将各个分散的流通环节集成化,追求整体系统的优化,使原有的流通渠道“提速’’、“节能",要实现供应链一体化的管理,从技术和实践的角度来讲就必须首先实现物流系统的信息化,即实现物流企业的实体网络和信息化网络融为一体,确保信息能够从供应链的一头到另一头的连续性。通过标准化、规范化的方式实现对商品的连续跟踪将供方——配送——需方等物流环节有机地连接起来。 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文20081.1.2我国物流行业的发展状况和主要问题在计划经济时期,我国整个经济发展格局处于卖方市场,商品的仓储、运输主要是由国家统一的商业批发、商业储运企业及运输业来完成的,当时我国尚没有物流概念与认识,只有分割的运输、仓储、批发、零售等企业【4I。二十世纪80年代至90年代中期流通体制发生重大变化,国家主管部门组织物流配送中心的试点,引导传统储运、批发企业向现代物流配企业发展,但总的来看效果不够明显。此时我国物流仍处于传统物流为主、逐步探索现代物流运作规律阶段。90年代中期以来社会主义市场经济体制初步形成,买方市场逐渐形成,越来越多的生产企业己经认清物流能力在市场竞争中的重要作用。尽管目前国家的物流标准体系还没有完全建立来,但是国家已经颁布了一些与物流相关的标准,电子商务中的标准、商品条码的标准,但尚未获得到企业的广泛运用。我国物流行业现阶段存在的问题主要表现在物流信息的标准化,物流的设备的标准化,物流服务的标准化等几方面。物流信息的标准化主要包括设施自动化和经营网络化,设施自动化是指可以实现货物的自动识别、自动分拣、自动装卸、自动存取,从而提高物流作业效率:经营网络化是指建立完善的企业内部网和外部网,实现对货物运行的各种信息数据进行自动分析和安排调度,用户下单与交易均通过互联网实现,并对自己的货物随时可以进行查找跟踪。对物流的设施和设备实施标准化,主要包括物流模数、存储规格、容器标准、托盘标准、车厢集装箱标准、包装标准等等。物流服务的标准化是指人们对物流服务标准没有『F确的、客观的评价,主要以主观衡量因素,造成了物流服务质量的千差万别,物流服务没有形成系统的制度规范,缺乏制约的制度基础,因而很难保证现实物流服务中的质量。1.2课题研究意义1.2.1烟草行业物流配送中国加入WTO后,我们烟草行业将面临来自国外烟草集团更大的挑战,但是当前我国烟草物流配送系统还没有真正形成一个健全的网络体系,主要存在的问题有:物流配送率低,配送中心未能形成物流多种功能的有机结合,配送的集约化程度低,卷烟物流配送形态落后,尚未实现库存的集中调度等。随着烟草生产物流在国内众多卷烟企业的建设和发展,从2002年起,各地烟草商业公司也纷纷响应国家烟草专卖局“电话订货、电子结算、网上配货、现代物流”的精神,开始了卷烟配送物流建设。2004年以来,国家烟草专卖局提出取消县级烟草公司独立核算法人资格的要求,涉2000多家县级烟草公司向地市级烟草公司收归,相关业务重组和整合进一步引发了卷烟商业企业对仓储、分拣规划设计及相关设施的广泛需求。面对卷烟商业配送领域的发展需求,在以手工操作模式为主,自动化设施相对空白的卷烟商业配送背景下,国内物流设备供应商及集成商纷纷抢滩卷烟商业物流,推出了各种不同的仓储、分拣工艺流程及相关设备。然而,众多用户对物流配送的理解和定位有一定差距,表现出各种需 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008求。要做好烟草配送系统,供应商和用户要携手做好以下几点:合理的设计目标、准确的系统定位,柔性的系统规划设计,有效提升订单处理作业效率的自动化设备,支持商业模式持续改进的配送信息系统,经济合理的配送成本,配套的管理体制。1.2.2建设烟草行业物流信息系统的意义随着数据库技术、计算机网络技术、计算机通信术、管理信息系统、自动控制等多种技术的发展,烟草行业物流信息系统逐渐得到有关方面的重视。烟草行业物流信息系统可以全面实现信息自动化和数字化,使各项业务流程更加顺畅,数据传递更加快速、准确。烟草行业物流信息系统可以通过计算机控制仓库存储容量,降低存货成本;通过数据化业务提高经济运行质量,降低了网络运行成本;通过自动化控制来提高了分拣速度,降低差错率;通过数据分析提高工作效率,降低经营风险,并提高综合效率和效益。以仓储业为中心的物流配送系统即物流配送中心在整个烟草行业物流过程中占有着很重要的位置,它可以合理化的调配物流过程,降低物流生产的人工和消耗成本,为整个企业提供高质量的物流服务。物流配送中心是将多品种的大批量物品集中到配送中心,再根据消费者的需求(品种、数量、规格、质量、时间、地点)进行分货、包装、加工等工序配货,并有迅速、准确、低成本的配送设施。物流配送中心的工艺流程是:进货检查,短期保管及库存管理,订货处理,流通加工,包装、分拣、出库,配送。现代化的物流配送体系,可有效减少流通环节和流通时间,降低流通成本。建设现代化的配送中心关键是要实现信息化、电子化管理。现代化的配送中心与传统仓库的显著区别在于其对信息技术、自动化技术的广泛应用,使用计算机管理库存,商品条码技术、电子数据交换技术、电子订货系统等,可以用于配送中心与上游生产企业和下游零售企业之间的信息沟通。自动化的分拣、输送、装卸既节约了人力成本,又提高了工作效率。高效合理的物流配送作业离不开发达的计算机联网技术和自动操作技术,而现代化的配送中心同时也可以推动供应商和零售商的信息化改造。以信息化为基础的现代物流体系的建设是行业信息化应用的重要内容,借助现代信息和网络技术,将整个行业产业链中的物资资源和设施统一规划和优化整合。烟草物流配送管理系统,主要是针对烟草配送系统实现一库制集中存储和统一配送而设计,由配送中心统一进行卷烟库存管理、分拣和配送,实现仓储管理数字化与分拣电子化有机结合。其目的是以现代物流理念和科技为手段,以服务于烟草销售网络体系、推动业务流程再造和组织结构调整、加快物流资源整合、降低物流配送成本、提高物流配送运作效率和提供优质服务、打造商业服务品牌、增强烟草核心竞争力为目标,加快发展烟草现代物流的步伐,实现烟草物流配送系统的现代化、专业化、信息化、网络化,并与烟草专卖系统以及卷烟生产企业ERP系统无缝联接。1.3本文所做工作本文介绍了现代物流相关理论和发展趋势,重点研究了烟草行业物流信息系 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008统的构架与建设,将数据挖掘理论和数据仓库技术引入到中邮科技物流公司浙江省某市烟草公司配送中心项目,验证了在烟草全程物流过程中引入数据挖掘技术所带来的优势。本文也对烟草行业物流信息系统中的配送线路优化模块进行了深入的研究,将蚂蚁算法引入到温州烟草配送中心项目的线路优化中,仿真效果证明蚂蚁算法提高了配送效率,节约了生产成本。1.4本文的创新点本文的创新点主要是提出了烟草行业物流信息系统一体化构架,该构架能够将信息系统的各模块有效的联系起来,实现信息流、数据流、实物流的有机结合。本文引入数据挖掘技术作为该构架中关键模块的计算引擎,使得烟草传统物流能够适应中邮科技物流公司的新型卷烟自动化分拣设备,极大的提高的生产效率,同时利用数据挖掘技术对销售数据进行管理和分析,为管理层及时掌握市场变化和指定销售策略提供了强有力的数据支持。此外,本文在物流信息系统配送线路优化模块引入了蚂蚁算法,结合实际情况进行了改进,通过仿真数据来看可以得到较好的应用效果。1.5本章小结本章介绍了物流行业的发展概况,现代物流的基本概念,以及现代物流在我国的发展状况与现实中存在的问题,同时本章对本文所做研究内容及其创新点进行了概述。4 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008第二章数据仓库技术与数据挖掘技术理论概述2.1数据仓库技术概述2.1.1数据仓库的定义现代社会的发展在信息流上取决于信息的获取与处理技术,信息的价值在于用户通过使用这些信息从中得到收益,工作的要点不是简单地处理数据,而是如何使用数据,从数据中挖掘出有用的信息。数据仓库是在关系数据库中存储数据和处理数据,并且使得数据更加有力地支持决策分析,其主要目的是通过收集、过滤和存储数据来寻找数据的趋势,帮助企业制定有关经营方面的决策。数据仓库技术是一个比较受人们关注的研究热点,目前比较广泛地背接受的定义是:数据仓库是“面向主题的"、“一致的”、“不同时间的”、“稳定的”数据集合,用于支持经营管理中的决策支持过程,即数据仓库是一个处理过程,该过程从历史的角度组织和存储数据并能集成地进行数据分析【5J。数据仓库一般应具有四个特征:(1)数据仓库应该是是面向主题的,传统的数据仓库是面向应用设计的,而主题是在一个较高层次将数据归类的标准。(2)数据仓库应该是一致的数据集合,应用程序常常以不同的格式使用类似的数据。(3)存储在数据仓库中的数据可以正确地表示任何时间的任何值。(4)数据仓库必须是比较稳定的。2.1.2数据仓库的基本概念数据仓库数据库:是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术数据抽取工具:把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、SQL语句等,以访问不同的数据。数据转换都包括。删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺省数据赋给缺省值;把不同的数据定义方式统一6】。元数据:元数据是描述数据仓库内数据的结构和简历方法的数据。可将其按照应用用途分为两类。即技术元数据和商业元数据。技术元数据:技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据,包括数据源信息,数据转换的描述,数据仓库内对象和数据结构的定义,数据清理和数据更新使用的规则,元数据到目的数据的映射,用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008商业元数据:商业元数据是指从商务业务的角度描述了数据仓库中的数据,包括业务主题的描述,包含的数据,查询和报表等。元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据,这些数据是怎么得到的和怎么访问这些数据。元数据是数据仓库运行和维护的中心,数据仓库服务器利用他来存储和更新数据,用户通过他来了解和访问数据。访问工具是为用户访问数据仓库提供手段,主要包含数据查询和表表工具,应用开发工具,管理信息系统(EIS)工具,在线分析(OLAP)工具,数据挖掘工具。数据集市(DataMarts)是为了特定的应用目的活着应用范围而从数据仓库中独立出来的一部分数据,也可称为部门数据活着主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据仓库时就不会造成大麻烦。数据仓库管理是指管理数据仓库所用到的手段,包括安全和特权管理,跟踪数据的更新,数据的质量检查,更新和管理元数据,审计和报告数据仓库的使用状态,删除数据,复制、分割和分发数据,备份和恢复数据等171。信息发布系统是把数据仓库中的数据或其他相关的数据发送给不同的地点或用户,基于Web的信息发布系统是对付多用户访问的最有效方法。2.1.3数据仓库的构建数据仓库的构建过程实际上是从传统的以数据库为中心的操作型系统结构转移到以数据仓库为中心的体系结构的过程,具体实现过程如下:(1)概念模型设计阶段这阶段的主要工作是进行概念模型设计,界定系统边界,确定主要的主题域及其内容。即要建立模型并且选取主题,模型的建立是从用户的角度对所需数据的内容以及数据间关系的抽象嘲。(2)技术准备阶段这一阶段的工作包括:技术评估,技术环境准备,对现有的技术方案进行评估,以确保方案的可行性;如果方案可行性成立,要对方案中所涉及到的环境因素进行准备。(3)逻辑模型设计阶段选择数据颗粒度,对于不同的数据量将选择不同的数据颗粒度策略:分析主题域,按照时间对表进行分割,细节数据时间短,而综合数据的时间稍长。(4)数据抽取和数据加载阶段将数据资源从外部抽取到数据仓库中,在此过程中应该依据元数据中定义的标准数据格式处理数据,在数据被抽取后,对准备进行加载的数据进行清理,然后加载到数据仓库中。(5)0LAP模型设计阶段0LAP是针对某个特定的主题进行的联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者【9i。(6)数据挖掘模型设计阶段在进行数据挖掘的时候,将数据宽表划分成训练集合和验证集合,在没有挖6 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008掘模型时可以使用训练集合对数据进行训练,逐渐确定模型中的参数。在模型建立后,利用验证集合对模型进行评价。(7)数据仓库生成阶段这一阶段所要做的工作是接口编程,数据装入。根据前几个阶段的研究成果设计接口,确定数据装入的次序,清除无效或错误数据,当数据装入到数据仓库后建立数据仓库的应用,耳PDSS应用。(8)数据仓库运行与维护阶段使用数据仓库理解需求,调整和完善系统,维护数据仓库,建立起操作型和分析型的数据环境。2.2数据挖掘技术概述2.2.1数据挖掘的发展与定义随着数据库技术、人工智能和数理统计等技术的发展与融合,数据挖掘(DataMining)技术应运而生。数据挖掘是-f-j新兴的交叉学科,也是现代科学技术相互渗透的必然结果,其基本目标就是从大量的数据中提取隐藏的、潜在的和有价值的知识和信息。它是一个利用各种分析工具在海量数据中发现知识模型和数据间关系的过程,这些模型和关系可以用来预测未知,为数据的所有者创造出很多潜在的利润和价值【l01。自提出以来,数据挖掘技术便引起了许多专家学者的广泛关注和深入的研究。在数据挖掘发展的前期,主要集中在银行、证券、保险、电信、零售、交通、航空、石化、能源等领域。近年来,随着计算机的普及和数据的大量积累,数据挖掘已经在电子商务、快速消费品行业中得到了广泛的应用。数据挖掘技术将对企业信息管理、决策支持等带来深远的影响,具有广阔的开发前景和应用前景。数据挖掘普遍被接受的定义是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘是一种新的信息处理技术,其主要特点是对企业数据仓库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助企业决策的关键性数据。数据挖掘的对象可为数据库、文件系统或其他任何组织在一起的数据集合。数据挖掘主要是由以下相关学科和技术领域发展起来的:(1)统计学统计学方法旨在从抽样分析中提取未知的数学模型,在数据挖掘中常常会涉及一定的统计过程,如数据抽样和建模、判断假设以及误差控制等。(2)决策树决策树是一种重要的分类预测模型,通过分类的方法可以找出描述并区分数据类或概念的模型(函数),以便能够使用模型预测类标记未知的对象类⋯l。(3)人工神经网络人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。(4)遗传算法遗传算法走一种优化技术,它利用生物进化的一系列概念进行问题的搜索, 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2008最终达到优化的目的。。(5)粗集粗集理论是一种处理含糊和不确定问题的新型数学工具,它具有较强的数学基础、方法简单、较强的针对性和计算量小等优点。(6)模糊逻辑模糊逻辑糙模糊集合与布尔逻辑的融合,在数据挖掘和KDD中,常用来进行证据合成、置信度计算等。(7)可视化技术可视化技术采用直观的图形方式将信息模式、数据的关联成趋势呈现给用户,以便用户交互地分析数据关系。一般来说不存在一个普遍适用的数据挖掘方法,在不同的领域不同的算法往往有不同的效果。因此在实际应用中,需要针对特定的领域选择有效的数据挖掘模型与挖掘算法。2.2.2数据挖掘的功能根据发现任务与发现目标的不同,数据挖掘所能发现的典型知识主要包括以下几类:(1)关联规则(Associationrole)所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则的任务就是从数据库中发现那些确信度(Confidence)和支持度(Support)都大于给定值的强壮规则。从数据库中发现关联规则近几年研究最多,目前,己经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现【l21。在概念层次上的不断深入,使得发现的关联规则所提供的信息越来越具体,实际上这是个逐步深化所发现知识的过程。在许多实际应用中,能够得到的相关规则的数目可能是相当大的,而且,用户也并不是对所有的规则感兴趣,有些规则可能误人们的决策,所以在规则发现中常常引入“兴趣度"(指一则在一定数据域上为真的知识被用户关注的程度)概念。而基于更高概念层次上的规则发现研究(如一般化抽象层次上的规则和多层次上的规则发现)则是当前研究的重点之一。在数据挖掘中,常见的关联规则发现算法有:AIS、SETM、Apriori、DHP、ML-T2L1、ML.TMLl等,其ePApriori和DHP是比较成功的两个算法。(2)分类(Classification)分类是最基本的一种认知形式。数据分类就是对数据库中的每一类数据,挖掘出关于该类数据的描述或模型,而这些数据库中的类是事先利用训练数据建立起来的。作为数据挖掘的一个重要主题,数据分类在统计学、机器学习、人工智能等领域中得到了较早的研究,只是近些年来,人们才将它与数据库技术结合起来解决实际问题。在数据挖掘中,分类算法的研究成果较多,常用的数据分类算法有:C灿玎、C45、ID3、SLIQ、Knn、GA-Knn等。(3)聚类(Clustering)在机器学习中,数据分类称为监督学习,而数据聚类则称为非监督学习,两者所采用的方法相差甚远。数据聚类是将物理的或抽象的对象分成几个群体,在每个群体内部,对象之间只有较高的相似性,而在不同群体之间,相似性则比较 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008低。一般地,一个群体也就是一个类,但与数据分类不同的是,聚类结果主要基于当前所处理的数据,事先并不知道类目结构及每个对象所属的类别,数据聚类计算量巨大,其时间复杂度也要比数据分类大得多。常见的算法有PAM、CLRA、CLARANS、BIRCH等。2.2.3数据挖掘的主要技术数据挖掘主要应用的技术有决策树、近邻算法、遗传算法、规则归纳、神经网络等。(1)决策树决策树是一种典型的分类算法,可以得到类似在什么条件下会得到什么结果的规则。比如在建立运输网络决策树模型,进行细分,找出最有可能对总的运输成本最低的方案。决策树的优点是生成容易理解的规则,如果建立一个包含几百个属性的决策树,虽然看起来很复杂,但每一条从根结点到叶子节点的路径所描述的含义还是可以理解的另外,决策树算法的计算量相对讲也比较小,擅长处理非数值型数据。(2)近邻算法近邻算法将数据集合中每一个相邻一记录进行归类的方法,是最容易使用和理解的技术之一。近邻算法是以人们思维方式相似的方式检测最近的匹配样本,这种算法对错误数据和丢失的数据的处理十分健壮,在自动化方面近邻算法有较好的性能。(3)遗传算法遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。遗传算法主要由三个子算法组成:繁殖,从一个旧种群选出生命力强的个体,产生新种群的过程:交叉,选择两个不同个体的部分进行交换,形成新个体;变异,对某些个体的某些基因进行变异【13】。遗传算法可起到产生优良后代的作用,在优化计算和分类机器学习方法方面发挥了显著的作用。(4)规则归纳规则归纳就是通过统计方法归纳和提取有价值的IF-THEN规则,规则归纳技术在数据挖掘中被广泛应用。基于规则的数据挖掘技术则可以给出模型的生成规则描述,这些规则是通过使用某些统计方法对数据集合进行分段而生成的,有大量的基于规则的技术被用于数据挖掘。(5)神经网络神经网络(ArtificialNeuralNetwork)是模拟人脑结构的数据模型。神经网络仿照生理神经网络结构的非线形预测模型,从一组输入数据中进行学习,根据这一新的认知调整模型参数,以发现数据中的模式【14J。神经网络为解决复杂度大的问题提供了一种相对来说比较有效的简单方法,可以很容易的解决具有上百个参数的问题,它的应用非常广泛。2.2.4数据挖掘的过程数据挖掘的过程按照阶段与作用可分为三个步骤:预处理阶段,数据挖掘引9 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2008擎阶段,用户决策管理阶段,如图2—1所示:匦i匦堕壁圆图2—1数据挖掘过程流程图预处理阶段:主要是针对应用系统采集数据,并对数据进行加工,检查数据的完整性和一致性,对其中不J下确或无价值的数据进行处理,对丢失的数据利用统计等方法进行填补,形成数据仓库。数据挖掘引擎阶段:运用选定的数据挖掘算法,如神经元网络、决策树、聚类分析技术、排序算法等,从数据中提取出用户所需要的知识,这些知识可以用系统所需要的某一种特定的方式来表示。用户管理决策阶段:对所获得的知识进行价值评定,以决定所得的知识是否存入知识库,评价主要通过与用户的接口显示给决策管理层来制定相应的管理策略。数据挖掘引擎阶段是数据挖掘技术中的核心部分,主要包括模式模型和挖掘算法。目前己形成了多种数据挖掘方法,如分类知识发现、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常发现、趋势预测等。2.3本章小结本章主要介绍了数据仓库的发展过程、基本概念与技术以及数据仓库的构建的过程,同时介绍了数据挖掘技术的发展与定义、主要功能与技术和数据挖掘过程。本章为本文所做工作做好了理论铺垫,为下文的展开论述打下坚实的理论基础。lO 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008第三章烟草行业物流信息系统一体化构架3.1物流配送信息系统3.1.1物流配送信息系统概述物流信息系统(LogisticsInformationSystem,LIS)是物流企业或部门按照现代管理思想及理念,以信息技术为支撑所开发的信息系统,该系统充分利用数据、信息、知识等资源,实施物流作业、控制物流业务、支持物流决策、实施物流信息共享,以提高业务效率和决策的科学性。从系统观点来看,构成物流信息系统的主要组成要素有:硬件、软件、数据库和数据仓库、相关人员以及企业管理制度与规范等。物流信息系统在物流活动中有非常重要的作用,通过物流信息的收集、传递、存储、处理、输出等,形成决策依据,对整个物流活动起指挥、协调、支持和保障作用。物流信息系统的主要作用有以下几点:(1)信息沟通物流系统是由多个行业、部门以及众多企业群体构成的经济大系统,物流信息系统能够纵向和横向联系各部门及企业,沟通生产厂家、批发商、零售商、物流服务商和消费者,满足各方面的需要。(2)信息指引物流信息随着物资、资金及物流当事人的行为等信息载体进入物流系统中,同时信息的反馈也随着信息载体反馈给系统中的各个环节,物流信息系统依靠记录和分析物流信息及其反馈可以引导物流运作的变动和物流布局的优化:协调物资结构,使供需间平衡;协调入、财、物等物流资源的配置等。(3)信息控制物流信息系统结合移动通信、电子数据交换、全球定位系统等技术实现物流活动的电子化,用信息化手段管理和控制物流系统。例如,如为了应付需求波动,通常在物流的小同节点上都设置有库存,包括中间库存和最终库存,如零部件、在制品、制成品的库存等,这些库存增加了物流的成本。而物流信息系统能够实时地掌握物流系统中的各种信息,可以对库存进行缩减,从而缩短物流链,使物流系统得到整合和合理使用。(4)信息辅助物流信息是制定决策方案的重要基础和关键依据,物流管理决策过程的本身就是对物流信息进行深NT_的过程,是对物流活动的发展变化规律性认识的过程。物流信息系统可以协助物流管理者鉴别、评估、比较物流战略和策略中的可选方案,如车辆调度、库存管理、设施选址、资源选择、流程设计,均要依靠物流信息系统的帮助来做出科学决策。通过对物流信息的提炼和分析,物流信息系统还能进行收益分析和制定涉及物流活动的长期发展方向和经营方针的物流战略等。物流信息本身是有价值的,而物流信息系统在实现物流信息利用价值的同 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2008时,又使其价值呈现增长趋势。物流信息的增值,也将大大促进了企业效益的增加。3.1.2基于数据挖掘的物流配送信息系统的特点与传统的物流管理信息系统相比,基于数据挖掘的物流信息系统具有以下特点。(1)传统的物流管理系统一般按功能分为许多功能模块,信息的共享范围与物流信息管理,特别是与供应链管理要求的信息高透明度和快速反应相距甚远。基于数据挖掘技术的物流管理信息系统,采用数据仓库技术来组织管理数据,能完整一致地刻画各个分析对象所涉及的企业的各项数据,从而将企业各部门及上游制造商、下游零售等信息联结在一起,最大限度地实现信息共享。(2)一般的数据库为了提高系统的效率,往往尽可能少地保留历史信息。数据仓库具有一个重要的特征,就是一般具有长时间的历史数据存储,存储长时间历史数据的目的就是进行数据长期趋势的分析,预测未来一段时间内的库存量变化,实现前瞻性调拨,增强适应突发因素的能力,为决策者的长期决策行为提供有力的数据支持。把数据挖掘这种新的数据处理技术应用到物流信息系统当中,提取辅助企业决策的关键性数据。对于各种物资的使用、库存和流转等信息有较强预警性。(3)在传统的系统中,模型库和知识库往往被独立地设计和实现,缺乏内在的统一性。知识模型来源于专家,更新困难。基于数据挖掘的系统,分离了知识发现者和知识使用者这两类角色,决策人员无需对决策系统有深刻的理解,也不需要深入学习数据仓库、数据挖掘等相关知识。而专业人员则可以通过TCP/IP协议随时访问有关的服务器,对系统进行管理、维护、知识库扩展等。同时基于数据挖掘的物流系统融入了物流决策系统的特性,这是一种结合了数据挖掘技术和人工智能的新型经营决策系统3.2烟草行业物流配送信息系统一体化构架的设计3.2.1信息系统一体化构架的系统设计原则总体原则遵循低耦合、高内聚原则。无论是系统与系统之间还是系统内部层次之间,均要遵循这一根本原则。任何一个系统或一个层次均要实现某些或某个非常专业的功能,这一特点要求系统或层次内部逻辑关系高度内聚、紧密结合;而系统或层次之间要保持低耦合;系统或层次之间如需交换数据可以直接在数据库级进行交换,也可以通过封装好的接口函数进行保护性访问,还可以标准的文件或其他通讯形式进行数据交换。这样一个大系统就可以通过这种面向对象的方法,划分成若干子系统来完成,提高了整个系统的可调试性和安全可靠性。此外,烟草物流配送系统设计应遵循以下设计原则:(1)实用性原则:满足企业管理及自动化物流的实际业务及工艺需求;(2)可靠性原则:在保障系统成熟、稳定、可靠前提下力求技术先进、合理,满足实时控制、不停顿系统的要求;自动化设备在排除故障重新启动后,信12 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕上学位论文2008息系统能够平滑连续作业;(3)灵活性原则:允许系统结构调整、工艺流程调整等,通过参数调整(不需修改应用程序)来灵活实现,适应企业流程有限变化的要求;(4)易维护使用原则:操作、维护方便;故障恢复迅速、备用方案简洁快速;操作过程日志记录,帮助排除故障;(5)扩展性原则:从企业整体信息化角度进行规划,为将来业务发展留有充分的扩展空间和信息接口,方便扩充,从上游软件获得基础信息并为下游程序提供数据;根据企业发展的需要和要求,自动化物流系统可以较方便地配置或经过少量修改,就可以适应新的业务调整;(6)知识转移原则:采用不断培训、完善文档、贴身服务等形式,将系统涉及的技术、文档等知识,完整地无保留地转移到客户指定的相关人员,使客户能熟练使用并进行维护;(7)技术上的先进性原则:在满足实用原则的基础上,自动化物料系统,采用目前流行且成熟的技术如多层体系结构,如Corba组件技术、SOAP和XML技术,方便企业不同模块的信息和软件集成。3.2.2信息系统一体化构架的系统层次结构根据上文叙述的物流信息系统设计原则,结合该市烟草公司的实际应用情况和现场条件,信息系统一体化的系统层次结构设计如图3-I所示:系统层故结构嘏~甍且辇蠡蚕统,与配送中心分拣系统变换各种上配送中心ERP电话访销_系统仓储鼐系统圃莳嘲猁”⋯⋯⋯按旦lollI沽正才迅擅士日卅』角+吉●小性广1安全设备益控层’一仍同仅首提1是1呆土尸1至擐u‘设备控制层圃薯餐箍荔孚葬冀高丧塞彗勰成扁屡设图3—1系统层次结构图 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕上学位论文2008如图3一l所示,仓储分拣配送系统起着承上启下的作用,一方面作为此系统的数据处理核心,存贮系统运作过程中的所有业务数据,并提供对外数据交换接口,同时还要完成对底层自动设备的驱动和调度。3.2.3信息系统一体化构架的系统网络构架烟草仓储分拣配送系统,是企业生产必须依靠的物流系统,系统的短暂停顿,都将可能导致整个配送作业的中断等严重后果,因此,系统选型必须满足:(1)高可靠性:系统是健壮、稳定的,同时也是安全的;(2)高可用性:易于管理、故障率低、容错性强,具备持续长时间运行能力;(3)易恢复性:简单复制特性、备份恢复特性:(4)成熟先进性:技术的成熟先进性不仅是保障可靠、可用、易恢复的基础,也是系统集成、升级发展的要求:(5)性能价格比:在保证满足整体需要的情况下,还要考虑到建设、运营和维护成本。鉴于上述情况,考虑自动化物流系统的特性要求,选用三层分布式结构,关键服务器采用双机热备和磁盘阵列以保证系统的安全可靠性。另外,考虑系统的3层结构,将方案设计为如图3—2所示:图3—2系统网络构架图14 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文20083.3烟草行业物流配送信息系统一体化构架3.3.1信息系统一体化构架的研究意义目前,烟草行业物流系统存在着发展水平不平衡,标准化体系不健全,管理范围不规范,生产方式落后等问题。仓库与配送中心的工作方式主要是以手动入库计量和人工分拣为主,虽然引入和仿制德国西门子公司的半自动电子标签式条烟分拣线,但工作效率提升有限,人工成本和操作人员数量仍没有得到降低,并且半自动分拣线所普及的范围并不大。仓库管理与配送中心的联系不够密切,基本上还处于各自运行的情况,在某些特殊情况下,由于未能准确预测市场需求的变化,甚至会造成某类卷烟的脱销和滞压。这使得企业不能及时地根据市场需求的变化进行销售策略上的调整,降低了企业的竞争力。本文所提出的烟草物流信息系统一体化的构架,在很大程度上解决了这些问题。首先,该构架是基于国家邮政科学设计规划院物流公司根据市场需求所自主开发的烟草行业全自动分拣线,降低了人工成本,极大的提高了生产效率,充分利用了烟草公司仓库和配送中心的空间和现有设备。其次,该构架通过将仓库、配送中心、访销系统各自的数据库通过局域网连接起来,以数据仓库技术为基础建立了中心数据库,实现了数据共享,将烟草公司各部门有机地联系起来。在中心数据库的基础上,该构架引入了数据挖掘技术,计算出能够供应全自动分拣线高速运行的最佳件烟供货顺序,使得全自动生产线能够以较高的生产效率工作;同时根据仓库件烟消耗情况,建立了各类型卷烟的市场需求模型,为烟草公司能够有效地掌握和预测市场需求提供了可靠的分析数据。在配送线路优化方面,一体化构架采用蚁群算法结合实际生产情况建立数学模型,在该模型的基础上采用实际数据进行仿真得到最优参数设置,解决烟草行业物流配送线路优化的问题,在针对浙江省某市烟草公司进行实际数据仿真,并取得了比较理想的效果。3.3.2信息系统一体化构架的物理与逻辑模型烟草行业物流信息系统一体化构架的物理工作流程可以分为仓库管理部分、配货管理部分、发运管理部分三个部分,其物流工作流程如图3-3所示:(亭配赁管理区发运管理区(巫i遁)[丽i幻‘瓜。84—、‘、—_—————_一’[末厂习黑广匮触鐾鲴箸善:锉‰嚣’匝占困广L蝥辫:n重咩到匦每.一匠=]l-----甏.L警__麓]L一降幽匝塑蛔I口豳函圭t匿姻[如兰盖毒墨t图3—3烟草行业物流信息系统一体化构架物理流程图 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008仓库管理部分负责用装满条烟的标准纸箱(简称件烟)的入库、存储和出库管理。当烟草生产厂家将件烟运输到烟草配送中心,操作人员首先要核对件烟的种类与数量,核对正确后为这批次件烟分配货位,用运输设备将件烟运输到指定的货位。同时,操作人员利用手持扫描设备对件烟进行扫描,将件烟的种类和数量等信息上传至中心数据库。配货管理部门需要提货的时候,仓库管理部门根据总提货单,将指定种类的件烟出库,同时拆分一些件烟以满足提货单的零条,并用运输设备将这些烟出库。同时核对提货单,将提货数据上传至中心数据库。配货管理部分是根据客户需要将每个订单所需要的条烟分拣出来并进行包装。本文所基于的硬件设备是国家邮政局科学设计规划院中邮科技物流公司的新型全自动卷烟分拣设备。当用户的订单数据被整理出来之后,一体化构架中的后台管理部分将针对这些订单进行数据挖掘,得出最适合硬件设备的分拣指令和出库数据,根据这些数据后台管理部分还可以提供各类单据的打印。当分拣开始后,一体化构架中的控制中心部分将控制所有硬件设备的运行并下发分拣指令,确保自动分拣的进行。当每个订单的实物被分拣出来之后,操作人员可以按照后台管理部分提供的单据进行人工核对,减少出错概率,确保配送中心和客户的利益不被损害。发货管理部分是负责已分拣完毕并已包装好的条烟的暂存,以及配送线路的设定、优化、修改和调度。由于配送中心工作方式的特殊性,条烟分拣完毕之后往往是在第二天才有配送车辆装载并运输到指定客户,发货管理部分要确保所存放的条烟的完整性与安全性。当与配送车辆进行交接时,根据后台管理提供的单据进行核对,杜绝错误的扩散。同时发货管理部分还要根据配送车辆、用户变更、道路状况等因素确定配送线路,配送线路一经确定往往在很长时间内不需要变化,当有状况发生需要变更时,发货管理部分会根据具体情况进行配送线路的修改。在软件实现上,这三个部分分别由存储管理、控制中心、后台管理三个用户软件来控制,另外作为收集用户订单数据的电话访销系统也要与中心数据库进行连接。这些程序通过计算机局域网络相连接,通过使用统一的网络中心数据库,保证了数据的唯一性与准确性,其基本逻辑构架如图3—4所示:图3—4烟草行业物流信息系统一体化构架逻辑流程图16 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕十学位论文20083.3.3中心数据仓库构架中心数据库是综合访销系统、存储管理、后台管理、控制中心四个部分的数据所组建的数据仓库服务器,它是系统中唯一的数据存储设备,确保了各部分之间数据的唯一性和有效性,同时它还担负着各部分之间的数据交互任务。数据仓库的开发模式有三种:星型模型、雪花模型、混合模型,本文所提出的烟草行业物流信息系统一体化的数据仓库服务器采用星型模型,提高了查询性能,降低了维表的复杂度。星型模型是数据库构建中最常用的模型之一,它是一种逻辑设计技术,该技术采用各种直观的标准框架来变现数据,并且允许高性能存取,是一套基于一组基本度量事件为获得查询性能与易用而指定的数据建模方法。星型模型遵循维度方面的规范,并且带有某些具有重用限制条件的关系模型型。每个维度模型都具有复合键(MultipartKey)的某个表(事实表)和一系列小型表(维度表)组成。每个维度表都有一个逐渐,他精确地对应到事实表中复合主键中的某个组成部分。星型模型为数据访问提供了最好的方式,对各种数据查询与分析进行了优化,能够准确的先是事实表与维度表之间的相互作用。本文中的中心数据库具体设计是:每个主题对应一个星型模型结构,星型模型由一个事实表和多个维表构成,事实表用来存储事实的值及各个维的码值,维表用来存储维的描述信息,如如图3-5所示:零珲!霹笼零降煳卷烟代码时『日J代码。●_____●_——时问代码L..一卷烟代码货位代码目标烟仓代码入库数量运行位置标志出库数鼍消耗顺序图3—5中心数据仓库构架图时间维表主要包括烟草公司所定义的一些时间代码,既有基本的年、月、同、时、分、秒等信息,同时也有客户定义的特殊时间变量,比如某个批次数据的出库时间代码,分拣的时间代码,以及某批次数据分拣过程中的具体的分拣、暂停、17嘲—型琴圈吲引引引刮到一惰~代代代代一数规评~潭~户烟路埘一烟烟售.|匪恪憎憾时~倦倦旧比\/弱燮臻簏一瞪群鼢一一 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕.上学位论文2008错误处理等时间记录,该维表主要以客户定单的时间批次代码对应到每个事实表中。卷烟维表记录了每类卷烟的全部信息,包括卷烟的名称、卷烟代码、规格、产地、进货价格、批发价格、零售价格等。该维表是数据仓库中对实物件烟的一个鉴别,是数据与实物对照的唯一标准,具有十分重要的地位,为了确保实物与数据不产生错误,我们以卷烟名称的全称和国家烟草专卖局定义的卷烟代码全码作为一个组合的衡量标准,在实际应用中确保了烟草公司、客户与设备商对卷烟实物与数据认识的统一性和唯一性,体现出很好的效果。配送线路维表主要记录烟草公司指定的配送线路中的客户信息,主要包括每条配送线路的名称,配送线路代码,该配送线路中的客户名称该配送线路中的客户代码,该配送线路中的客户的分拣顺序编号,该配送线路对应的配送员姓名,配送员的职工代码,该配送线路对应的配送车辆信息等。配送线路维表主要由一体化构架中的线路优化部分来确定和修改,该维表中的客户分拣顺序在分拣指令信息的生成中具有很重要的作用,该顺序既要能适应信息系统实际计算的需要,又要照顾实际配送中的配送便利的考虑。我们仍以线路名称和线路代码这一组合信息作为该维表的主要考虑。客户维表记录着在烟草公司登记并取得销售权的销售代理的客户信息,其中包括客户名称、客户代码、所在配送线路名称、所在配送线路代码、客户的详细地址、客户支付款项方式等信息。该维表是区分具体客户所定的条烟的主要依据,我们以客户代码和客户名称这一组合来区分不同的客户,确保在出货、分拣、配送的过程中每个客户所定条烟的种类和数量不会出现差错。对该维表的管理直接体现了烟草公司对销售代表销售权的管理,该维表的修改必须等到专管领导的批准才能进行修改。订单信息表是由电话访销系统提供的,电话访销系统通过电话的方式接收客户订单,并对这些数据进行整理。订单信息是首先以配送线路进行分类,将每个客户的订货信息划分到其所属配送线路,之后再以该客户在配送线路中的分拣顺序进行对应,在每个客户的订单信息内再以卷烟名称和卷烟代码进行划分。订单信息表记录着每个线路的线路代码、线路名称、客户代码、客户名称、客户订单的日期、客户所定卷烟代码、所定卷烟数量、该客户的销售评级等信息。最终获得的订单信息是按照配送线路、客户分拣顺序、卷烟代码进行分类的,在查询与修改的过程中以上述三个分类标准作为唯一查询标准,该表利用卷烟代码与仓库信息表进行对应。仓库信息表记录当期仓库内所存储的卷烟的信息,包括所存卷烟的名称、卷烟数量、当前记录时间、卷烟所在货位、该类卷烟历史出库和入库信息、当前分拣批次对该类卷烟的出库需求等信息。仓库信息表是对配送中心存储能力和历史记录的一个直观认识,当某类卷烟出现数量不足或者滞销,可从该表中得到明确的体现,同时该表是对仓库管理信息的一个历史积累,有助于决策层很快速地把握最基本的实物信息和实际存储状况。该表以卷烟代码和卷烟名称作为对外的主键。件烟运行信息表是根据烟草公司要求所建立的一个实时定位表,它包括卷烟名称、卷烟代码、记录时间、件烟入库时问、件烟出库时间、当前件烟所处位置的编码、分拣设备对其分配的运行信息等信息。该信息表可以实现对任何一件件烟的实时追踪,从该件烟入库开始,根据信息系统一体化构架不同部门的信息共享,该表实时修改某件烟的位置代码信息,对该件烟的入库、出库、分拣运行中 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008的具体位置、目的烟仓、分拣完毕都有记录,确保了实物与数据能够完全对照。该表以卷烟代码和件烟运行标志位和目的烟仓代码作为对外的主键。生产线硬件信息表记录着分拣中心的各类硬件的状况信息,包括每个烟仓的烟仓代码、烟仓状态、该烟仓对应的卷烟代码、卷烟名称、该烟仓当前对应的客户代码、运行标志位、该硬件的参数设置等信息。该表是信息系统控制硬件的主要依据,由该表的信息控制中心来判定各个硬件的运行状况,对生产进行管理与调整。该表以烟仓代码和当前对应客户代码为对外主键。条烟分拣指令信息表记录着信息系统一体化构架所提供的分拣指令信息,包括卷烟代码、客户代码、时间代码、烟仓代码、烟仓出烟数量、烟仓出烟硬件指令、运输系统指令、包装系统指令等信息。该表是整个生产正常运行的依据,是信息系统和硬件系统的结合体,控制中心根据该表的信息控制所有硬件的实时指令下发,并对信息系统的数据进行修改,是中心数据仓库中最重要的组成部分之一。该表客户代码、卷烟代码和硬件代码作为对外的主键。本文用星型模型建立的中心数据库在应用中体现出比较好的性能,由于该模型完全按照与用户理解的关系来定义连接的路径,很容易被客户理解,同时该模型优化了对数据的查询,使得一体化构架中的各组成部分的查询性能得到很大的提高,该模型还具有可预见性、易理解性、可扩展性等特点,在实际应用中该模型最突出的特点就是具有较强的抗攻击能力和安全性,往往在受到网络攻击时可以保障大部分数据的安全性,并且数据容易被恢复。3.3.4中心数据仓库的数据结构实现前文主要阐述了中心数据仓库的设计思路,中心数据仓库的主要基础信息的数据结构实现如以下几表所示:列名数据类型长度完整性说明肿Mvarchar15主键卷烟代码删Cvarchar30非空卷烟名称ZJMvarchar8非空助记码BZXSvarchar20包装形式肌Bvarchar10卷烟类别JⅥDvarchar16卷烟特点JZLlvarchar10多少件/大箱JZL2varchar10多少条/件JZL3varchar10多少盒/条JZL4varcharlO多少支/盒CSMCvarchar40厂商名称JYDWvarchar8单位RKDJmoney8入库单价CKDJmoney8出库单价BZvarchar60备注表3-1卷烟基础信息表19 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008列名数据类型长度完整性说明CSDMvarchar20主键厂商代码CSMCvarchar40非空厂商名称SFvarchar40所属省份LXRvarchar10联系人DZvarchar40厂商地址DHvarchar14联系电话SJvarchar11手机CZvarchar14传真DZYJvarchar20电子邮箱BZvarchar60备注表3-2卷烟厂商信息表列名数据类型长度完整性说明KHDMvarchar15主键客户代码KHMCvarchar50非空客户名称FZRvarcharlO非空负责人QYMCvarchar50非空区域名称LUXDMvarchar20非空路向代码LUXMCvarchar20路向名称DZvarchar40地址DHvarchar14联系电话SJvarchar20手机CZvarchar14传真DZYJvarchar20电子邮箱LEIXMCvarchar20客户类型代码CKvarchar20所属仓库BZvarchar60备注表3-3销售代理基础信息表列名数据类型长度完整性说明LUXDMvarchar15主键路向代码LUXMCvarchar20路向名称QYMCvarchar50区域名称表3-4配送线路基础信息表列名数据类型长度完整性说明SBBHvarchar15主键设备编号SBMCvarchar16非空设备名称ZTvarchar8设备状态CKMCvarchar20非空所属仓库BZvarchar60备注表3-5自动化设备基础信息表20 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008列名数据类型长度完整性说明IDvarchar60主键序号SHDHvarchar60非空送货单号QYDMvarchar15非空区域代码QYMCVarchar50非空区域名称JYDMvarchar15非空卷烟代码删Cvarchar30非空卷烟名称KHDMvarchar15非空客户代码KHMCvarchar50非空客户名称RQchar8出库日期SLnumeric9数量CKvarchar20非空出库仓库CKXHchar2出库序号3.3.5存储管理表3-6客户订单信息存储管理具体功能包括卷烟厂订单管理、件烟的入库信息的扫描与反馈。存储管理根据由中心数据库下载的数据向卷烟厂下订单,并不断对即将生成的订单进行更新与确认。在件烟入库的过程中,工作人员使用己下载入库件烟数据的手持设备PDA对件烟上的条码进行扫描,获取件烟名称、数量、产地、规格等信息,PDA在扫描完毕后将数据转存到储管理模块。存储管理首先校验全部件烟信息,再根据现有库存情况提出该批次件烟的存储方案,以电子显示屏显示的方式引导人员操作。存储管理模块将入库和仓库配置等信息进行整理后上传至中心数据库,再次核对入库信息,确保数据的正确性fI51。到货车辆到达配送中心后,,将送货司机所带到货单上的到货单号上传中心数据库,存储管理确认到货,同时生成该批到货的入库货位顺序表。从车上卸下的卷烟通过伸缩胶带机经“一号工程”条码扫描合格后,由码盘工位人工按规定的码垛方式码盘;将到货实物信息与存储管理提供的购货信息进行勾兑,准确无误后,存储管理生成入库记录。存储管理自动分配入库货物的库位信息,并冻结这些库位:件烟码盘后,送入提升机,由提升机运送N-楼,库房人员到提升机前来接货,并根据手持无线终端连接到存储管理,得到存储管理的提示,将托盘放到指定的库位,然后扫描货位条码进行入库确认,并将信息上传至存储管理。每批次的定货单信息和出库领料单下传到存储管理后,由存储管理制定出库配货计划。配送工作开始前需要出库时,由存储管理从中心数据库中提出配送信息生成总领单,并将该信息分为整件和零条两种信息。存储管理将整件配送信息传送至出库手持无线终端上,出库工作人员根据手持无线终端信息显示次序,用叉车到相应货架提取卷烟托盘,取出货物后根据信息采集器的提示,由人工将该货物送至升降设备,然后由升降设备将货物传送到暂存区交接。存储管理将零条出库信息传至拆零库电子货架系统,在零条烟出库的时候,先对零条烟拣选货架进行补货,在补货时,需要补货的零条货架自动点亮,补货完毕按下确认按钮灯自动熄灭。从零条烟拣选货架上出库时,按分拣设备、大品 基于数据挖掘技术的物流信息系统的研,究与实现北京邮电人学硕jL.学位论文2008种、中品种、小品种分类出库,需要出库的零条货架自动点亮并显示出库数量,该货位出库完毕按下确认按钮灯自动熄灭。由出库工作人员根据提示到相应货格提取卷烟,装入箱内并放置在托盘上,然后以托盘为单位通过升降设备传送到一层暂存区交接。在暂存区与分拣人员交接时,存储管理提供完整的订单数据,由操作人员核对确认无误交接完成后,接收人员在交接终端上确认交接,并上传至存储管理。3.3.6控制中心控制中心的功能是管理烟草配送中心的全部硬件,控制条烟自动分拣线的运行,同时它还是系统的人机交互处。通过控制中心,操作人员可以根据生产状况与市场需求来配置硬件参数,直接设定条烟分拣速度,实现人性化生产。在数据或者硬件出现错误的情况下,控制中心可以准确地定位出错误种类与错误环节,引导操作人员排除故障,第一时间恢复生产,确保生产的有序和有效。控制中心在软件上控制着生产线上件烟传输、件烟开拆、货架管理、条烟喷码、分拣复核等五部分,控制中心与中心数据库实时进行条烟的数据交换,对数据进行处理后下发到各工位程序,实现分拣过程中对条烟的全程跟踪。使用了数据挖掘技术的控制中心最显著的功能就是是市场销售情况模型的计算,在数据仓库的基础上,从卷烟品牌这个主题出发,经过分类、估值、预测、篮子分析、聚集、描述等一系列处理,控制中心可以就一段时间内各个卷烟品牌的销售情况进行评估和预测。控制中心所采用的是基于信息熵的ID3决策树分类算法,根据属性集的取值选择实例的类别。ID3的基本原理为:E=E×E×⋯×E是n维有穷向量空间,其中C是有穷离散符号集,E中的元素P=(H,v2,⋯,匕>称作例子,其中吩∈C,其中/=l,2,⋯,n,设朋和PIE是E的两个例子集,分别叫做正例集和反例集,假设向量空间E中的正例集饱和反例集NE的大小分别为p和刀,如果以属性彳作为决策树的根,A具有y个值“,屹,⋯,屹),它将E分为y个子集强,易,⋯,巨),假设互中含有只个正例和ns个反例,子集互的信息熵为,(只,吩),以属性A分类后的信息熵为:剐)=喜等地Ⅷ(3.1)因此,以A为根的信息增益是gain(A)=I(p,n)-E(A),ID3选择使gain(A)最大(即E(A)最小)的属性A‘作为根节点。对爿’的不同取值对应的E的’,个子集巨递归调用上述过程,生成A’的子节点B.,垦,⋯,统。 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008将ID3是扩展到多类分类问题,设样本集S共有C类样本,每类样本数为易,i=1,2,⋯,c,如果以属性彳为决策树的根,A具有1,个值嵋,屹,⋯,K,它将E分为',个子集{巨,岛,·..,E),假设磊中含有第,类样本的个数为0,J=1,2,·..,c,那么子集蜀的信息熵为:旭,2喜南灿g南∽2,以A为根分类后的信息熵为:剐)=喜谢州互)(3-3)选择A’使E(A)最小,信息增益也最大,则该决策树的非叶结点到达各后代叶结点的平均路径最短,生成的决策树平均深度也较小,可以提高分类速度和准确率。在中心数据库的基础上,从卷烟品牌维度入手,由ID3算法可得如表3.7所示的卷烟销售分析表:卷烟品牌销售数量(件/月)市场占有率(%)长白山5023.61大红鹰4893,25中华4202.98中南海3402.40红塔山2981.89利群2131.53表3-7销售情况分析表如果从中心数据库的客户维表入手,控制中心可以得如表3-8所示销售网点销售情况表:销售网点销售数量(条/月)与上月对比上海路友芳批发店302上升鹿城区志祥批发店387持平开发I又:会麟超市289下降表3-8销售网点销售情况表控制中心提供的这些数据,为决策者掌握市场情况,指定销售策略提供了可靠的参考依据。3.3.7后台管理后台管理主要功能是分析当日分拣数据与配送线数据,得出当同分拣指令, 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008上传至中心数据库。后台管理所操作的对象是中心数据库存储的数据,它的数据源是电话访销系统所整理出的销售点订货数据与销售点销售数据。通过后台管理,操作人员可以查询并配置各种类卷烟数据,设定卷烟销售类别。后台管理所采用的数据挖掘模型如图3-6所示:订单数据}二:)f卷烟种类计算}二二:);烟仓与卷烟相关联}二爿线路匹配计算}二划分拣指令生成l=习供烟数据生成图3-6后台管理数据挖掘模型该数据挖掘模型中最重要的就是卷烟种类计算模块,该模块是将订单中的所有数据进行统计,最后计算出不同类型卷烟的该批次订单的所有数量,本文采用的数据挖掘中的聚类算法中的DBSCAN算法进行实现。DBSCAN是一个有代表性的基于密度的方法,基于密度的方法是依据密度的概念对分类对象进行聚类,它或者根据领域对象的密度或者根据某种密度函数来生成聚类,除DBSCAN算法外,应用较多的还有OPTICS、DENCLUE等算法。DBSCAN将密度足够大的那部分记录组成类,其基本思想涉及一些的定义:(1)对于给定的对象,我们称在其半径范围内的一个记录为这个记录的占一邻域;(2)如果一个对象的g一邻域个数超过一个最小值,MinPts,那么我们就将这个记录称作核心对象;(3)一个对象的集合D,如果一个对象P在口的E一邻域内,并且g是一个核心对象,可定义对象P是从对象g出发直接密度可达的;(4)一个对象链届,P2,⋯,以,如果A=口,岛=P,对只∈D,(15f≤疗),Pt+I是JAp,出发的关于s和MinPts直接密度可达的,则对象p是从对象g关于占和MinPts密度可达的;(5)如果对象集合中存在一个对象0,使得对象P和对象g是从0关于占和MinPts密度可达的,那么对象P和对象g是关于占和]MinPts密度相连的。DBSCAN通过检查数据库中每个点的占一邻域来寻找聚类。如果一个点P的s一邻域包含多于肘砌胎个点,则创建一个以p为核心对象的新类。DBSCAN反复地寻找从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达类的合并,当没有新的点可以被添加到任何类时,该过程结束。后台管理从中心数据库下载当同订单后,首先以卷烟品牌为单位进行计算出当同所要分拣卷烟种类和数量,并根据当同分拣数量进行排序,形成报表如表3-9所示:卷烟品牌当同分拣数量(条/日)分拣量排名长白山6001大红鹰550224 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕+学位论文2008中华5003中南海4504红塔山4005利群3506表3-9卷烟种类计算表后台管理读取当前生产线硬件状况,得出可用烟仓数量,进行烟仓与卷烟相关联计算。如当前可用烟仓为40道,则排名前10位的卷烟设为大品种卷烟,每类卷烟各占用2条烟仓;排名11到15的的卷烟类别设为中品种卷烟,每类卷烟各占l烟仓;剩余所有类别卷烟设为小品种卷烟,共用5烟仓,形成如表3.10所示报表:卷烟品牌所占烟道烟道类型长白山1,2大品种卷烟大红鹰3,4大品种卷烟中南海2l中品种卷烟利群26小品种卷烟表3-10卷烟与烟仓指定表考虑到全自动生产线硬件设备的需求,每条分拣指令所含大品种卷烟数与中、小品种卷烟数量之比,在等于或接近大品种卷烟所占烟仓数量与中、小品种所占烟仓数量之比的情况下,生产线效率最高。后台管理将今日分拣的各个线路所含大、中、小品种卷烟数量逐个进行计算,形成如表3.1l所示报表:分拣线路排列顺序相似率4—2—1—391%2—4—1—387%1—3—4—278%3—2—1—471%表3-11线路匹配计算表后台管理选定最高相似率的分拣线路排序作为今天的指定分拣顺序。在中心数据库构架中,各分拣线路中客户都具有唯一的指定分拣次序,根据该客户在分拣线路中的分拣次序,该客户的订单,以及已知的卷烟与烟仓指定表,后台管理生成今日的分拣指令,形成如表3.12所示报表:分拣指令ID分拣指令(烟仓编号)客户代码1l,5,8,21,2500506722,2,2,6,21,2500506731,7,12,18,23,3100407848,10,31,32,49,40004078512,15,25,28,3l,36003025表3-12分拣指令表 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文2008在已知各烟仓出烟指令即分拣指令的基础上,后台管理设定几个数值为补烟区间点,根据区间点来判定某烟仓补烟优先级,如每烟仓的最大容量为50条,后台管理设定2个区间值,分别为15和30,形成如表3.13所示报表:烟仓号当前所存卷烟数(条)补烟类别112急需218一般322一般435可等待表3-13供烟优先级表后台管理根据供烟优先级表,卷烟与烟仓指定表生成供烟数据,通过LED显示屏提示给件烟投料处操作员,引导操作人员进行投料操作,确保生产线持续运行。3.3.8电话访销系统烟草公司电话访系统建设虽然刚刚起步,但是发展速度非常迅速。电话访销系统可以帮助烟草公司吸引和保留更多的客户,管理企业与客户之间的关系,还可以帮助企业科学有效地管理业务流程,缩短企业的销售周期和销售成本,帮助企业搜集、跟踪和分析每一个客户,充分了解并满足客户的个性化需求,实现客户价值最大化和企业利润最大化。电话访销系统的功能是接收销售点的订单数据和销售点分布变化数据,是整个一体化信息系统的数据源。工作人员通过电话访销,接收各销售点的订单信息或确认销售网点的变更情况,电话访销系统将这些数据归类整理后上传至中心数据库。电话访销系统的工作方式是电话订货,通过网上银行电子结算,已经成为烟草物流系统中的重要环节,其工作方式图3—7所示:图3-7电话访销系统工作流程图电话访销系统主要有三种主要应用模式:第一种是绑定呼叫模式,即为每个座席员分配一批客户,使客户有固定的座席员专人负责,以最大程度提高服务质量和客户满意度为主要目标;第二种是自动群呼模式,即通过自动外拨服务器随 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008机拨打任务队列中的客户,拨通后按自动排队规则转给座席员,以充分发挥呼叫中心的运行效率和提高座席员工作效率为主要目标;第三种是预约自动呼入模式,即将客户分组后为其分配呼入时段,由客户在预约时段内主动拨打呼叫中心,拨通后转给座席员,以降低呼叫中心运营成本为主要目标。3.4本章小结本章对物流信息系统进行了介绍,并讨论了基于数据挖掘的物流信息系统的优点,之后,本章从阐述了一体化构架的设计原则、网络层次结构和网络构架。本章同时从物理和逻辑的两个角度上对本文所提出的烟草行业物流信息系统一体化构架进行了阐述,之后分别对一体化构架中的数据仓库设计、存储管理、控制中心、后台管理和电话访销系统、后台管理进行了介绍,重点阐述了应用数据挖掘技术比较明显的控制中心和后台管理两个模块。27 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2008第四章信息系统一体化构架的软件实现和性能4.1开发工具4.1.1前台开发工具C++Builder概述C++Builder是由Borland公司继Delphi之后又推出的一款高性能可视化集成开发工具。C++Builder具有快速的可视化开发环境:只要简单地把控件拖到窗体(Form)上,定义一下它的属性,设置一下它的外观,就可以快速地建立应用程序界面;C++Builder内置了100多个完全封装了Windows公用特性且具有完全可扩展性(包括全面支持ActiveX控件)的可重用控件;C++Builder具有一个专业C++开发环境所能提供的全部功能:快速、高效、灵活的编译器优化,逐步连接,CPU透视,命令行工具等。它实现了可视化的编程环境和功能强大的编程语言(C++)的完美结合。C++Builder优化的32位原码(NativeCode)编译器建立在Borland公司久经考验的编译技术基础之上,提供了高度安全性、可靠性、快速性的编译优化方法,完全编译出原始机器码而非中间码,软件执行速度大大提高。在编译和连接过程中,C++Builder自动忽略未被修改的原代码和没有使用的函数,从而大大提高了编译和连接速度。C++Builder的CPU透视工具包括五个独立的小面板,可以对正在运行程序从内部进行深层次的了解。另外C++Builder还提供了一个专业开发环境所必需的命令行工具,以帮助建立C++程序或者准备编译和连接的程序进行更精细的控制。C++Builder可以编译所有符合ANSI/ISO标准的原代码,支持最新C抖/C语言特征:包括模板(Templates)、例外(Exceptions)、运行类型信息(RuntimeTypeInformation)、Namespaces等,另外它还可以使用标准C++库且支持标准模板库(STL),以前的所有C++/C原代码可以不经过修改,直接移植到C++Builde闱:境下来。C++Builder完全支持32位长文件名、多线程程序设计,且允许程序员直接调用任何Win95和NTAPI函数。C++Builder的集成开发环境(DE)提供了可视化窗体设计器、对象观察器、控件板、工程管理器、集成编辑器和调试器等一系列可视化快速应用程序开发(RAD)工具,让程序员可以很轻松地建立和管理自己的程序和资源。4.1.2C++Builder界面设计技术在C++Builder中,所有的可视化设计工作都在窗体中展开,当你打开C++Builder或建立一个新工程时,屏幕上会出现一个空白的窗体。可以用这个窗体来建立应用程序界面,包括窗口、菜单、对话框等。通过可视化的组件,如按钮、列表框等在窗体上的放置和排列,可以设计出用户图形界面的外观,而底层的工作细节则由C++Builder自动管理。同时,也可以将一些非可视化的组件放入窗体之中,以便管理数据库信息,进行计算,管理 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008其他操作等。大多数可视化组件由开发环境本身提供,放置在组件面板之上。从组件面板中选择组件并放置到窗体中即可设计应用程序用户界面。可视化组件被放入窗体中后,就能调整它们的位置、尺寸、及其他设计时属性。组件面板上的C++Builder组件以其功能的不同分属于不同的页。例如,常用组件,比如那些用来创建菜单、编辑框或按钮的组件,位于组件面板中的标准(Standard)页。一些简便的控件比如,计时器、绘图框、媒体播放机、OLE容器控件等在系统(System)页。乍看之下,Ca-+Builder组件与任何其他的C++类大致一样。但是,在C.HBuilder组件和大多数的C++所使用的标准C++类分层结构之间还是存在一些差异的,主要有:(1)所有的C++Builder组件由TComponent类派生而来。(2)组件大多数的应用是通过改变他们的属性来使用,而不是作为“基类’’以使其子类能够增加或改变其成员函数。当组件被继承时,通常是给现有的事件处理成员函数加上具体的代码。(3)VCL组件只可分配在堆中,而不能在栈中,它们必须用new操作符来创建。组件的属性本质上包含运行时类型信息。(4)组件可以被加到C++Builder用户界面的组件面板中并且可在窗体中操纵。(5)C++Builder组件通常比标准c.H类封装得更好。(6)C++Builder组件可处理大多数的Windows消息,若要响应一个Windows消息时,只需提供一个事件句柄即可。4.1.3Ca-+Builder数据库技术C++Builder支持关系数据库应用程序。关系数据库将信息组织成表,这些表包含行(记录)和列(字段),并能通过一些简单的关系运算被处理。在应用程序中,可以使用组件面板面上的DataAccess页、ADO页或InterBase页上的组件来读写数据库。DataAccess页上的组件使用Borland数据库引擎(BDE)访问数据库信息,使与用户界面有关的数据控件能够使用这些信息:ADO页的专用组件使用ActiveX数据对象(ADO)通过OLEDB访问数据库信息;InterBase页的InterBaseExpress组件直接访问InterBase数据库。根据C++Builder版本的不同,BDE包含不同的数据库驱动程序,但所有的数据库类型都包含存储信息的表格,不同的数据库支持一些附加的功能,比如数据库安全、事务、数据字典、引用完整性、存储过程和触发器等。根据所安装的BDE或ADO驱动程序,可以连接不同类型的数据库。这些驱动程序可使应用程序与本地数据库(如Paradox、Access和dBASE)或远程数据库服务器(如MicrosoftSQLServer、Oracle和Informix)相连。与之相似,InterBaseExpress组件既可以访问本地,也可以访问远程版本的InterBase。C++Builder可以创建客户端应用程序和应用程序服务器,客户应用程序使用标准的数据感知控件,通过一个数据源连接到一个或更多的数据集组件,以便显示数据和编辑数据,每一个客户数据集通过一个由应用程序服务器执行的IAppServer接口与应用程序服务器进行通信。客户端应用程序能够使用不同的协议(TcP/IP、H1TrP、DCOM或MTS)来建立这种通信。而究竟使用哪种协议则 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2008取决于在客户端应用程序中使用的连接组件的种类以及在服务器端应用程序中使用的远程数据库模块的种类。4.1.4后台数据库开发工具SQLServer概述SQLServer是Microsoft公司的新一代数据管理与分析软件,它可以帮助企业在整个企业范围内实现数据与系统的高度分布;为内部员工、目标客户与合作伙伴提供针对相关数据的持续访问调用能力;以切实有效的信息资料武装信息工作者,促进科学决策;在不必牺牲应用程序可用性、安全性或可靠性的前提下控制成本费用水平,它具有如下特点:(1)创建并部署更具伸缩性、可靠性和安全性的企业级应用。(2)降低数据库应用创建、部署与管理的复杂程度,进而实现IT效率最大化。(3)凭借可供创建更具安全保障之数据库应用的丰富、灵活、现代化开发环境增强开发人员工作效能。(4)跨越多种平台、应用和设备实现数据共享,进而简化内部系统与外部系统连接。(5)实现功能强劲的集成化商务智能解决方案,从而在整个企业范围内推进科学决策,提高工作效率。4.2系统通讯机制本文所依托的硬件系统是中邮科技的新型全自动卷烟分拣生产线,从信息系统的角度上来看,该生产线主要的控制系统包括控制中心、系统投料入口终端、件烟开拆工位终端、小品种补货终端、生产线单线控制中心终端、系统出口复核终端几部分组成。这就要求本文的系统需要建立一套完善的通信机制,能够实时的传输信息与数据,协调软件与硬件的数据交流,确保生产线正常工作。在开发的过程中,本文采用SOCKET控件进行通讯,SOCKET控件是应用比较广泛的通信控件之一,其性能的优越性和通信的稳定性已经在很长时间的应用中得到了保障。本文以控制中心为主要控制设备,在控制中心上建立SOCⅪ玎服务器,其他各部分建立SOCKET客户端,将主要信息以一对一的双工发送模式发送到控制中心。控制中心综合实际情况对数据进行处理,修改数据库,更新数据以及关键信息,同时像各个部分下发工作指令。4.2.1生产线皮带监控与控制中心的通讯(1)请求皮带信息皮带监控模块主动发送给控制中心——昏嬲kbelt分拣设备编号皮带编号—>:控制中心从硬件设备中读取到信息发送给皮带监控模块——<~replybelt分拣设备编号皮带编号皮带数据~>。(2)请求生产线控制信息 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008汇合模块主动发送给控制中心———,~勰k1111分拣设备编号—>;控制中心从硬件中读取信息后回写给汇合模块——<~r印lyllll分拣设备编号标志汇合数据~>:控制中心下发指令给汇合模块——妇set1111分拣设备编号标志~>。4.2.2小品种补货终端提示灯与控制中心的通讯小品种模块主动发送给控制中心——妇lighton分拣线编号灯编号—>;提示灯灭后控$lloe心回写给小品种模块——<~lightoff分拣线编号p。4.2.3生产线控制终端与控制中心的通讯(1)请求系统清零生产线控制终端发给控制中川卜——如askmachineinfo分拣线编号—,>。(2)请求初始信息生产线控制终端请求初始信息生产线控制终端刚连接上的控制中心时向控制中心发送<~askmachineinfo分拣线编号~>。(3)设置分拣线工作状态设置分拣开始与分拣停止,生产线控制终端发送如setsortstatus分拣线编号动作词~>;控制中心回写——<~r印lysortstatus分拣线编号分拣状态~>。(4)设置存储系统传输件烟设置开始运输件烟与停止运输件烟,生产线控制终端发送——<~setcigarstatus分拣线编号动作词~>;控制中心回写——≮唧lycigarstatus分拣线编号分拣状态—》。4.2.4件烟开拆工位终端与控制中心的通讯(1)请求初始信息当件烟开拆模块刚启动的时候,发送给控制中心——妇aSkfillinfo分拣线编号开拆工位编号~>。(2)件烟运输到开拆复核模块件烟开拆模块向控制中心确认信息发送——<~fillcheck分拣线编号开拆工位编号ID~>;控制中心回应件烟开拆模块发送——<~f订1checked分拣线编号开拆工位编号ID复核结果~>。(3)件烟开拆后运输到穿梭车上控制中心下发上车指令——如gotocar分拣线编号开拆工位编号穿梭车编号IDp;件烟上车之后件烟开拆回应控制中心——如fillfinish分拣线编号开拆工位编号穿梭车编号I眇。 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕上学位论文20084.2.5复核终端与控制中心的通讯(1)控制复核终端扫描设备控制中心下发扫描指令至复核终端——<~sc锄b盯分拣线编号复核工位编号批次号容器序号BlockSerial->。(2)控制复核终端进行复核控制中心下发复核信息至复核终端——≮。check分拣线编号复核工位编号批次号容器序号BlockSerial~>。4.2.6生产线补货终端与控制中心的通讯(1)正常运行阶段控制中心下发生产线补货终端运行指令—_<~liftertrigger升降机编号【1,2】楼层编号升降机IDa>;生产线补货终端开始运行后向控制中心反馈信息——<~feedcigar升降机编号【1,2】楼层编号升降机ID+左右传输段编号与条码正确的标志+信息系统的ID+烟箱轨道编号+优先级~>;(2)错误处理阶段控制中心下发停止补货终端运行,进行人工处理发送——妇1ifterdelete升降机编号【1,2】楼层编号升降机ID~>。4.2.7系统硬件参数设置与控制中心的通讯(1)读取参数各模块需要读取该模块参数信息时,发送至控制中心——≮。嬲koption分拣线编号系统名称~>:控制中心回应各模块—吒replyoption分拣线编号系统名称数据~>。(2)设置参数各模块需要设置该模块参数信息时,发送至控制中心——如setoption分拣线编号系统名称数据~>;控制中心回应各模块—吒replysetoption分拣线编号系统名称ok/error->。4.3系统主要模块界面设计及功能4.3.1控制中心模块控制中心主要是控制生产线系统正常管理操作、生产线信息查询、系统硬件参数设置等功能。(1)主界面 基于数据挖掘技术的物流信息系统的研究与实现北京邮lU人学硕l!学位论义2008一鲁哺蛐务器连接状态二号哺碣疆务器莲接柱态⋯一7盅示辟牖务器蓬持扰卷束淫接图4-1控制中心主界面主界面E端显示的是生产线的当自仃信息,包括硬件运行状况报告、生产线控制信息显示、生产线错误报警等信息,下端主要显示整个信息系统的信息交换与通信状况,包括各模块发送至信息中心的报文内容、生产线各模块刈’件烟的实时监控信息、生产线各模块的功能请求信息等。(2)生产线管理系统处理Fj蓟萌勇吾爵=号分拣线日志操作退出开始分拣整箱暂停参数设置涪穿梭车双车清穿棱车单车清条烟分拣系统涪件烟信输系统数据查看,大品种烟仓状态中品种烟仓状态小品种烟仓状态T发烟仓状态-F发漕道状态件烟强制出烟滑道手动动作停用双车停用单车双车处件烟无效单车处件烟无效图4-2控制中心生产管理界面 皋f-数据挖掘技术的物流信息系统的研究1j实现北京邮}乜人掌影!l:学位论文2008生产线管理主要是指对生产线各模块的管理,主要空能包括:丌始/停止生产线补烟状况;了1:始/停止分拣、没置硬件参数、对硬件系统进行清零等功能。(3)生产线信息查询‘翰务赫瓣篓戮缀溺戮缀缀溺缓缀戮缀戮戮戮缓缓缀缀缓缀缀缓缓蕤嚣睡豢壤燃剿|卜l”|复制[£]}修改[班】ljlL退出[】1];!Ⅷ朝’冒,I置L执容器号t■完成标志l|一完成标志l{■完成标志2一完成标志2l髓爨隧麟糍獭8自目阻,路线代码路线名称l■装箱机■茫合标志l一装箱机-_J.o查询叫|{/确定[Q】X取消[£】容器吲下层皮带指令I上层度带指令下层数量上层数量总数I汇合标志|完成标志1l完成标志2批次号卜◆15179i6I14.i2.10..i4.15.12.i7。52025l20712201747_-1518014,14,14,14,:15,15,15,15,7916120712201747一15181i3,12,i2,11,:i6,12,12,17,5611120712201747-_41216120712201747一15182i6,16,ii,10,14J14,14,12,一1518316,13,13,1i,:14,13,16,II,151217120712201747一1518416,15,15,15,:13,13,13,13,.IIi930i20712201747一1518515,15,16,10,‘14,14,14,14,8917i20712201747一151869,9,18,18,36,2351207122017471518714,14,14,14,:15,15,15,15,131730120712201747一1518816,16,16,16,:1钆13,13,13,:9818l20712201747一1518912,21,21,21,:13,14,14,14,:Ii1930120712201747一1519015,18,18,17,:13,13,13,13,:51I16i20712201747一151919,25,25,25,2117,17,17,17,15914i20712201747~1518215,15,15,10,:14,14,13,13,:8715120712201747_-一1519313,13,13,13,:16,16,16,16,:Ii1930i20712201747,●}图4-3生产线信息界面生产线信息查询可以根据用户指定的条件,比如说容器号、批次号、线路名称等因素,对生产线分拣指令、件烟信息、烟道剩余量、分拣速度等信息进行查洵。(4)系统硬件参数设置图4-4系统硬件参数设置界面 基十数据挖掘技术的物流信息系统的研究与实现北京邮lU人学倾Ij学位论文2008系统参数设置模块的管理对象是整个系统中的硬件,包括皮带信息、控制系统PLC、伺服控制器等硬件,通过该模块可以对这些硬件的参数进行设置和修改,管理整个硬件系统增产运行。4.3.2后台管理模块后台管理主要有基础信息管理、户领单管理、分拣管理、报表打印、数据管理等功能。(1)主界面(2)基础信息管理图4-5后台管理主界面嗲礓国确燕幂彩粪蘩莲薪翥窿i芦丽霜卷烟代码管理烟的特征管理路向信息管理客户信息管理更新基础数据大品种烟道管理中品种烟道管理小品种烟道管理小品种货架管理件烟存储滑道管理萁它设备管理用户管理图4-6后台管理基础信息管理界面基础信息管理主要是管理整个信息系统和数据库的基本参数,其中包括卷烟名称、卷娴代码、路向信,皂、、客户信,色、管理、煳j煎和件烟运输设备的管理,这些 挂于数据挖掘技术的物流信息系统的研究‘j实现北京邮电人学坝Ij学位论文2008参数设置E}{该模块直接在数据库中进行定义与修改。(3)户领单管理_乡基砧信童管理户辘单管理分捷管理报衰打印数据管理退出(僵诲p!批次号r———————j龉冉名称r———————习进簧单号r——————刁日期互面函—百五百—i:客户名蒜f_———————墨誊烟代码r———————刁甜磊设鲁_每———————j藿旧名称f————⋯一习分嬲厂————刁蝴厂—————i璺!竺!型l!!二竺l竺兰竺竺竺l!!竺!竺划竺|曼竺兰兰!竺堂黧竺型|望竺兰兰堡|皇兰竺曼|一片x向名称1日期l客户代码I客户名称l卷烟代码露溺翳i瀚018000037665龙j穹三片组71220174738018000030665龙}芎三片组71220174738018000030665龙}夸}三片组71220174738018000030665龙}穹三片组71220174738018000030665龙i穹三片组71220174738018000030665龙湾三片组71220174738018000030665龙棒三片组71220174738018000030665龙搏三片组71220174738018000030665龙犄三片组71220174738018000030665龙棒三片组71220174738018000030665龙鸦三片组71220174738018000030665龙棒三片组71220174738018000030665龙湾三片组71220174738018000030665龙搏三片组71220174738018000030665龙摘三片组71220174738018000030665龙搏三片组71220174738018000030665龙湾三片组71220174738018000030665龙湾三片组71220174738018000030665龙棒三片组71220174738018000030665龙湾三片组71220174738018000030665龙’搏三片组0囊2007-12-202007—12—202007—12-202007-12-202007—12—202007—12-202007-12-202007-12—202007—12-202007-12-202007—12-202007-12-202007—12—202007-12-20018004989温州市龙拷黄.31010902温州市龙挎黄;31013202温州市龙湾黄131013301温州市龙湾黄.33010214温州市龙棒黄33013114温州市龙湾黄.33014407温州市龙湾黄33014429温州市龙挎黄I|37024706温州市龙湾黄i42010710温州市龙湾黄42010711温州市龙湾黄43010101温州市龙湾黄43020313温州市龙湾黄;52090107温州市龙}号黄153010121温州市龙湾黄.53020403温州市龙湾黄i53020723温州市龙湾黄153070103018004995温州市龙}骘黄:31013301温州市龙棒黄142010710温州市龙}号黄43020313温州市龙?芎黄52090107大前门(软)红双喜(硬)牡丹(软)新安江(软)利群(软蓝)雄狮(红老版)雄狮(硬)啥德门(精品)红金龙(硬虹主红金龙(软红产白抄(硬)芙番(软红)黄果树(特制蓬云烟(特酵)红梅(软黄)红塔山(较经乒红河(硬甲)牡丹(软)红金龙(硬虹三荚蓉(软红)黄果树(特制蓬l未领料l未领科3未领科2未领科1未领料2未领科3未领科2未领料4未领料3未领料1未领科2未领料1未领科2未领科1未领科1未领料2未领科2未领料1未领料图4-6户领单管理界面户领单管理模块是从中心数据库以及远程烟草公司管理数据库进行下载订单信息,在该模块中用户可以对具体到每个客户的每条订单信息进行修改、删除、管理等信息。一旦,二,领单下载完成,该模块可以指定分拣参数,根据这些信息由其他模块生成分拣指令。(4)报表打印l报表打印数据管理退出出库量打印特种烟出库量特种烟路向品种明细特种烟明细整箱烟打印分拣明细表分拣容器明细打印路顺表打印烟道分配表打印送货客户表纸箱统计表图4-7报表打印界面该模块可以根据用户需要打印出生,’f需要和生产管理等不同单据,卜要包括库房m库量单据、各个品种卷烟的明确出库量、生产线烟道分配等表格。36 堆于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕f:学位论文2008(5)数据管理图4-8数据管理界面该模块主要是对生产线数据库信息进行管理,其中包括生产线数据信息在数据库的备份、恢复、删除等管理。4.3.3存储管理模块总体库孝!挈掣:孽二j.三_‘三一警紫!伴”o唧r“I_⋯一;。:【i:ji豳图4-9存储管理界面存储管理模块主要是负责数字化仓储系统的管理系统,该模块的主要包括货位管理、件烟存放管理、条烟拆零等功能。 基f数据挖掘技术的物流信息系统的研究’j实现4.3.4件烟开拆模块没有复核信息左车件烟信息:右车件烟信息空’:A出13处滚筒信息量务舞连盘捷寿束j至攫监控莲摄扰奋丰连接图4-10件烟开拆管理界面陔模块的宅要功能是显示丌拆工位的到货件炯信息,在终端I:显示件烟信息,由开拆工位的操作人员在丌拆同时进行复核,确保,}i产序列不产生错误。4.4系统性能本文提出的构架已经应用于浙江省某市烟草公司新型全自动分拣线,本文作者在在工程实施阶段收集了大量实际数据,本文选择了一些系统运行数据进行对比,并对一些总要参数或观察角度进行了系统仿真,主要性能体现在以下方面:(1)系统生产效率本文所依托的中邮科技的新型烟草自动化分拣设备,采用了新型的硬件设计技术,硬件与软件在同步协调上取得了很大的突破,体现在硬件系统的生产效率一1-得到了较大的提高。全手工烟草分拣线的分拣效;笨大约在6000条/4,时,从幽外进【_j的半自动生产线的分拣效率大约在8000条/d,时,本文的系统存经过测试稳定后,效率可以达到15000条/4,时。型一一一 幂于数据挖掘技术的物流信息系统的研究与实现北京邮l乜人学硕.I:学位论义2008生产效率(条/小时)图4-11生严效率对比图(2)操作人员数量对于烟草行业现在主要存在的三种分拣线,全手工分拣线由丁二自动化程度非常低,每条分拣线正常运行的操作人员在20人左右,半自动分拣线在15人左右,本文的系统计算上硬件与软件操作人员,只需要10人左右,大大的节约了生产成本,体现了自动化技术的优越性。操作人员数量(人/生,扣线)图4一12操作人员数量对比图(3)生产成本全手工分拣线由于工作岗位众多,多组操作人员轮流生产,所以生产成本较高,基本在15力.元/月;半自动分拣线虽然加入了一些自动化设备,但是主要集中在条烟的运输上,在件烟运输和条烟分拣等主要工作环节还是依靠手工完成,半自动分拣线的成本在12万元/月;本文的系统集中解决了这些关键问题,自动化集成度比较高,减少了操作人员数量与工作量,生产成本降低至6万元/月。15000010000050000()生产:成本(元/月)图4-13生产成本对比图 丛十数据挖掘技术的物流信息系统的研究’0实现北京邮IU人学颂Ij学位论文2008(4)市场销售额手工分拣线或半自动分拣线基本上不能掌握市场情况,主要是依据以往的经验制定销售策略,效果很不理想,加之生,_效率低下等原因,甚至会出现生产与销售严重脱节的情况,导致市场销售量和市场销售额不能和当地经济发展相协调,直接影响了公司的效益。一体化构架山于采用了数据挖掘和数据仓库技术,使得决策人员能够及时掌握和预测Ifj场销售情况,进而制定相应的销售策略,较大地提高了公司的市场销售量和r}丁场销售额,可以为公司创造最大效益。根据本文采集的实际数据,在浙江省某巾.烟草公司的实际应用上,采用手,r分拣线的市场销售量大约12000件/月,半自动生产线的销售量大约在15000件/月,而本文提出的一体化构架通过实际生产的件烟,销售量呵以达到22000件/月。250002000015000100005000O市场销售鞋(仆/门)图4—14市场销售额对比图(5)数据挖掘引擎工作效率烟草行业信息系统的工作效率,主要是指对客户的订译的后台处理能力,半自动分拣线和手工分拣线主要是采用原始的客户订单,人工地根搌每行记录进行检查和提货,一般的数据挖掘引擎山于没有针射烟草行业进行优化,耿得的效果也不是很理想,而本文的一体化系统由于是基于烟草行业的,所以可以取得很好的工作效率。根据实际采集数据,针对同样的10万条订单汜录,人工数据处理方式大约需要60分钟,而一般的数据挖掘引擎大概需要22分钟,本文的一体化系统只需要10分钟。6050403020lO0数据挖掘tjI警T作效率(分钟/l()万条记录)图4—15数据挖掘引擎工作效率对比图(6)数据库工作效率烟草行业信息系统的原始数据库设计非常简单,各个表与视图含有很多重复的项目,每个表包含的数据过多,造成查咖与修改一Ij的效率的降低。一般的企业级数据库虽然引入了一些优化设计和一些查询优化,但是最初的设计没有考虑烟草行业数据的特点,所取得的效果也不是很理想。本文所采用的中心数据库构架,针对烟草信息系统就行了多项优化,包括把数j:lI:、H志、索引放到不同的I/O设 甚于数据挖掘技术的物流信息系统的研究0实现北京邮IU人学硕}j学位论义2008各上,增加读取速度;纵向、横向分割表,减少表的尺、h根据查询条件,建立索引,优化索引、优化访问方式,限制结果集的数据量;针对现场网络设备进行优化,提高网速;升级硬件,扩大服务器的内存配置虚拟内存。同时由于中心数据库的整体设计‘具有极强的针对性,所以在数据库的工作效率上有了很大提高。从实际的使用效果中,从1000万条记录中提取20万条记录作为查询结果,烟草初始数据库需要8518毫秒,一般企业数据库需要4793毫秒,本文所采用的巾心数据库构架只需要3326毫秒,在数据库工作效率上取得比较大的提高。图4-16数据厍工作效率对比图(7)系统信息处理效率由于烟草分拣设备中包含有诸多子系统,所以信息系统对信息的传递与处理能力较大的影响了系统的整体效率。手工分拣线的系统信息传递与处理t要是由一台电脑负责,既要运行数据库服务器,又要对信息进行处理,并主要依靠手动操作,效率很底。半自动分拣线虽然引入了计算机局域网,但足由于规模比较小,系统模块划分比较简单,效率提高并不明显。本文提出的一体化构架通过详细的系统划分,简洁有效的消息通信机制,很好地解决了这一问题。针对一批25万条烟的分拣数据,手工分拣线平均需要328分钟交换和处理所有信息,半自动分拣线需要189分钟,本文的一体化构架只需要67分钟。图4-17系统信息处理效率对比图(8)系统操作效率手工分拣线的系统操作主要是由一台电脑进行,单人操作并负责所有信息系统的操作,效率比较低,经常出现Ll={于系统操作不及时而使得其他:【作人员处丁闲置状态,系统任务分派不均匀或不明确。半自动分拣线虽然使用了小型计算机局域网技术,但是子系统划分不明确,软件与硬件信息交换与控制比较复杂,还是存在比较多的问题。本文的一体化构架与硬件联系紧密,明确地划分了予系统,系统功能明确,操作简单,仅需要E机操作人员一人,工作强度非常小,=}f:且极大地提高了工作效率。针对一批25万条烟的分拣数据,手工分拣线需要进行操 婊十数据挖掘技术的物流仃i息系统的研究’j实班北京6llgIU人学顺l:学位论文2008作点击约1253次,半自动分拣线的点击数约为875次,本文的一体化构架点击数约为287次。ldOO12001000800600400200O系统操作效率(操作点.h数/25万条条烟)图4一i8系统操作效率对比图(9)系统故障率手工分拣线的信息系统主要依靠‘台主机,对于操作人员.__r=作强度大,信息处理速度比较慢,操作种类比较多,所以系统经常出错,主要是人为于工操作引发。半自动分拣线虽然降低了单机人员的:.[作强度,但是由于硬件与软件的同步通讯能力较差,故障率还是在一个比较高的水平,主要为系统同步错误,并且错误处理需要的时I'nJ比较长。本文的一体化构架在设计初就考虑到错误率的问题,在软件通讯、硬件通讯和软硬件同步通讯上进行了错误处理设计,并且在功能模块划分L也对此进行了优化,使得一体化构架的错误率降低到一个能够接受的水平。从实际采集数据上看,在一个月的使用时期内,手T分拣线平均出错653次,半自动分拣线平均出错378次,一体化构架平均出错62次。700600500400300200100O系统故障率(次/,q)图4—19系统故障率对比图从对比图可以看出,相比较手工分拣线和半自动分拣线,一体化构架在生产效率和,上产成本上E有了质的变化。手工分拣线或半自动分拣线基本上不能掌握市场情况,主要是依据以往的经验制定销售策略,效果很不理想,加之生产效率低下等原因,甚至会出现生产与销售严重脱节的情况,导致市场销售量和市场销售额4i能和当地经济发展相协调,直接影响了公司的效益。‘体化构架由于采用了数据挖掘和数据仓库技术,使得决策人员能够及时掌握和预测市场销售情况,进而制定相应的销售策略,较大地提高了公司的市场销售量和市场销售额,可以为公司创造最大效益。在实际生产:中,决策人员依靠。体化构架所带来的数据分析和较高的生产效率,即使面对市场出现的突发情况,也碌得游刃有余。2007年5月,令圈烟草信息化建设71:作会议存该市7{丌,本文所提出的一体化构架和全自动,E产线得到了!j会领导和专家的一致肯定,幽家烟草局指定陔生,卉:线为围家姒I草局新一代生,范线的示例产品。与手I:分拣线或半自动分拣分拣 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008线相比,该构架极大的提高了生产效率,减少了操作人员的数量和工作量,节约了生产成本:降低了引入人为错误的概率,确保生产能够按照决策者的预定方案有效实行;为决策者制定市场销售测率提供了重要的数据依据;实现了每条烟从进货到配送的全程跟踪,满足了国家烟草局对新形势下的烟草专卖系统的要求;为打击假冒品牌、走私烟、违规烟草销售提供了有效手段。4.5本章小结本文首先对信息系统一体化构架的开发工具进行了介绍,本文以C++Builder为前台开发工具,SQLServer为后台数据库开发,本章对这两个开发工具的特点和选择理由进行了阐述。本章随后对信息系统一体化构架的几个主要功能模块的开发进行了介绍,包括界面展示、功能分析、系统结构等。本章最后对信息系统一体化构架的实际应用性能进行了介绍,证明了信息系统一体化构架所具有的独特优势,肯定了本文的研究意义。43 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文2008第五章基于蚁群算法的物流信息系统一体化构架的线路优化模块5.1物流线路优化问题概述物流业随着全球经济一体化进程不断地发展,并且被信息技术的不断更新所加速促进,已经成为经济体系中一门重要的新兴行业。配送是物流中的主要部分,结合我国的特殊国情以及车辆配置、道路交通等众多因素,如何在现有设备和基础上更有效地提高配送效率、降低配送成本是有一个非常具有研究价值的实际问题【161。车辆线路优化问题(VehicleRoutingProblem,V1廿)是物流配送过程中最重要的问题之一,它直接影响到配送效率、服务质量和配送成本,但是VRP问题往往是NP难问题,即该类问题一般都无法得出最优解,所以相关研究者们主要的研究目标是逼近最优解【171。蚁群算法(AntColonyAlgorithm)作为优化配送线路路径问题所经常采用的解决算法,虽然尚且停留在理论研究和仿真阶段,未能给出明确的数学解释,但该算法在解决实际中的复杂优化问题已体现出非常优秀的性能。本文提出的烟草行业物流信息系统一体化构架采用蚁群算法结合实际生产情况建立数学模型,在该模型的基础上采用实际数据进行仿真得到最优参数设置,解决烟草行业物流配送线路优化的问题,针对浙江省某市烟草公司的实际数据进行仿真,从仿真数据上看取得了比较理想的效果。5.2蚁群算法5.2.1蚁群算法概述生物学家为揭示昆虫的交互作用而提出蚁群系统,最初的目的是为帮助人们理解这类昆虫的复杂行为,但数学专家和计算机工程师却把这种超越生物本身的模型转化成了一项有用的优化和控制算法一蚁群算法【18l。其基本原理是:蚂蚁在行动中会在其经过的路径上留下一些信息素,蚂蚁『自J的信息传递就是靠这种物质进行的。信息素具有挥发性和对蚂蚁的行动具有指导作用,信息素越多的路径,被选中的概率越高。在一定的时间内,比较短的路径会被更多的蚂蚁访问,因此积累的信息素就越多,被后续蚂蚁选中的机率也就越大。随着时间的推移,最后就会出现几乎所有的蚂蚁都会选择这条最短的路径。设A是蚁巢,F是食物源,Pl、P2、P3为障碍物,A和F与P1、P2、P3分别为S、2S、3S,由A出发外出觅食蚂蚁,必须经由Pl、P2或P3到达觅食点,,如图5—1所示: 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008图5-1蚁群算法原理示意图假设蚂蚁的速度为1S/分钟的速度前进,120只蚂蚁从A开始出发去往F点,到达F点后立刻原路返回A点,并按上一次选择路径继续重复。在出发的时候,路径上无信息素,蚂蚁便以相同的概率随机地走三条路中的任意一条,即分别有30只蚂蚁向三个目标点P1、P2、P3出发。假设在-,b时内,先前蚂蚁所留下的信息素不影响后续出发蚂蚁的选择路径,则一小时内各条路径所统计的蚂蚁数量与时间的对应关系如表5-1所示:时间(t)路径A-PI-F路径A-P2一F路径A_P3一蚂蚁累计数10分钟90603020分钟150906030分钟2401209040分钟30015012050分钟39021015060分钟480240150表5—1根据表5-I我们可以看出,由于经由彳专,专P1这条路径的长度最小,所以蚂蚁在通过这条路径所完成的循环次数最多,一小时内所经过的蚂蚁数量也最多,导致这条路径上蚂蚁所释放的信息素最多。当信息素开始影响蚂蚁的选择,下一小时内选择走这条路的蚂蚁的数量增加,由这种趋势不断发展,最后所有的120只蚂蚁都会选择彳一F寸Pl这条最短路径,这说明蚂蚁群体的这种行为代表着一种信息正反馈现象。5.2.2蚁群算法模型蚁群搜索食物的过程与著名的旅行商问题(TSP)之间十分相似,所以我们以求解行个城市的TSP问题为例说明蚁群系统模型191。设m为蚁群中蚂蚁的数量,吒(f,j=l,2,...'功表示城市f和城市/之间的距离,包(f)表示f时刻位于城市f的蚂蚁数量,则有m=∑包(f)(5—1)i=I45 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008设乃(f)表示f时刻在{J『连线上残留的信息量,初始时刻各条路径上信息量相等,则有r,j(o)--C(C=Co.st)(5—2)设有蚂蚁k(k=l,2,⋯,,,1)在各条路径上运行,并根据路径上的信息量决定转移方向,f时刻蚂蚁尼由位置辟章移到/的概率为露(f),则有露(f)=蒜伽口肋喊泞3,0otherwise其中allowedk--{o,1,⋯,玎一1)一幻帆表示编号为七的蚂蚁下一步可以到达的城市,人工蚁群系统具有一定记忆性,其中tabu。(七=1,2,⋯,肌)记录蚂蚁七已经访问过的城市,即蚂蚁不会对同一个地点进行重复访问。%表示蚂蚁七从城市f移动到城市_,的期望度;口为信息启发式因子,反映了蚁群在路径选择中随机性因素的强弱;∥为期望值启发式因子,反映了蚁群在路径选择中确定性因素的强弱。路上的信息素会随着时间而有一定的消失,以P来表示路上信息素的残留系数,则卜p就为信息素对时间的消失系数。经过疗个时刻,蚂蚁完成了一次循环,则个路径上的信息素的根据下列公式进行变化:乃(1+刀)=p×勺O)+△勺(5—4)△勺=∑△∥(5—5)七;I其中△乃‘表示第七只蚂蚁在本次循环中留在路径上的信息量,△乃表示本次循环中所有蚂蚁留在路径耖上的总信息量,则有吲:偿倒H臌¨,第职蚂蚁选择路径“D(5_6)10其他其中Q是常数,厶代表第七只蚂蚁在本次循环中所走的路径的总长度,初始的设置是 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008△乃=0,其中f,/=0,1,..·,甩一1(5—7)对于一个配送系统设定配送中心之后,假设各个路线的交通情况都良好,配送中心为鼠,而用户为q(.,=l,2,·..,刀一1),并设每个配送中心有七(后<力一1)辆汽车,则配送路线的优化就演变成k辆车从配送中心鼠出发,分头访问用户B,,每个用户有且仅有一辆车到达。为了保证每个客户被访问到的基础上,整个访问过程的路线最短,我们可以建立下述模型:假设配送中心有k辆车,并将其全部利用,即一组车辆(共k辆)与为配送路线优化的一个可行解,然后用m组(共mxk辆)车辆共同协作来发现问题的最优解。对于第i(i=1,2,⋯,朋)组的车辆J(J=1,2,⋯,七),从配送中心鼠出发访问Mj个用户后回到配送中心鼠。其中,蟛是车辆/出发之前按一定规则随机生成的整数,表示第i组车辆的第.,辆车所访问的用户数。由定义知M;应满足:lM:≥2_,1圭蟛一1扛1’2,...'所L/叫(5—8)设H:(jf=1,2,⋯,k;i=1,2,⋯,m)为第i(i=l,2,⋯,m)组的一辆车J(J=l,2,⋯,七)的一个子周游列表,该表记录了车辆歹当前已访问过的用户。当日:中的元素个数等于蟛时,车辆.Jf停止搜索并回到配送中心昂。当第f组的所有车辆都回到配送中心岛之后,所有子周游的路径{研雹,⋯,磁)o=1,2,...,肌)便是上述问题的一个解。由于有m组车,所以将得到m组解,对于每辆车的路径设置,根据基本蚁群模型公式(5—3)计算出的概率露(f)来选择下一个客户,当所有组车辆都完成一次周游后,路上的信息素根据基本蚁群算法公式(5-4)和(5—5)来更新。5.2.3蚁群算法模型的流程在浙江省某市烟草公司进的配送线路优化项目中,我们采用了蚁群算法,但是结合实际情况,需要对蚁群算法进行一些实际条件的约束以及改进。这些实际约束条件包括汽车载重考虑、汽车最远行程考虑、实际交通情况考虑。汽车载重考虑:即每条线路上的客户点需求量之和,不能超过配送中心标准汽车载重量,即对任何一条线路有:47 基于数据挖掘技术的物流信息系统的研究与实现北京邮电火学硕士学位论文2008y彤≤日』—一‘ill(5—9)其中刀为该线路内客户点总数,形为第f个客户的需求量,日为该市烟草公司统一标准配送车的最大运载量。汽车最远行程考虑:结合人性化管理要求,避免配送员过度劳累,要求每天每辆配送车最多只加一次油,即每条配送线的路程总长度不能超过每辆车的最大航程,则有:∑喀+‰≤D(5一lo)其中盔为第f个客户点到下一个配送点的距离,以。。表示配送中心距离最远的配送点的路径长度,D为每辆车的最大可行驶距离。这一约束条件在优化计算的时候,体现为任何时刻车辆从当前所在客户到下一客户的距离,再加上从下一客户返回物流中心的距离不大于车辆剩余的最大可行驶距离.实际交通情况考虑:由于该市处于多山地地区,所以很多配送路径路途比较长,销售客户网点比较分散,影响蚁群算法的效率。为了解决这一问题我们采用了集束式算法,遵循“先集中再分散”的思想。首先将全市划分为5个大区,设立5个配送分中心,由配送中心将分拣完毕的条烟用大型货车运送N5个分中心,再由各配送分中心采用统一标准的配送车辆配送到销售点;在配送网点的划分上,打破原有行政地域划分,将其归入最近分中心配送范围,解决了原有的影响配送效率的特殊销售点的问题;在配送线路划分上,采用远距离客户优先策略和线路内部客户最临近策略,将全局最优和局部最优有效结合,弥补了最临近法构造线路时随着运算时间的增加,散点越来越多、越来越分散的不足。综合蚁群算法模型和实际情况应用的补充,我们得到蚁群算法实际应用的流程图如图5—2所示:圃l韧始化信矗c.将m只蚂蚁戚翻配f避中心,≤≥l更新■佳路径.请空蚂蚁已经过lI,t台.!--I+I⋯⋯压耍垂巫E蔓垂堕困(匐图5-2蚁群算法应用流程图[一攀一 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文20085.2.4蚁群算法模型的参数设置对蚁群算法性能有影响的参数主要有信息素残留系数P、信息启发式因子口、期望值启发式因子∥和信息总量Q等【20】。P的大小反映了信息素的挥发速度,P的取值过小,容易陷入局部最小值而停止;P的取值过大,将影响算法的收敛速度。口的大小反映了蚁群在路径选择中随机性因素的强弱,t:t的取值越大,蚂蚁选择以前走过的路径的可能性越大,搜索的随机性减弱,容易陷入局部最优解;口的取值越小,可以提高随机搜索能力,但是算法的收敛速度会受到影响。∥的大小反映了蚁群在路径选择中确定性因素的强弱,∥取值越大,蚂蚁选择局部最短路径的可能性越大,虽然收敛速度加大,但是同样容易陷入局部最优解而停滞。Q为蚂蚁循环一周时释放在所经过的路径上的信息素总量,同参数P、口和∥类似,Q值大有助于算法的快速收敛,缺点是容易陷入局部最优解而停滞。、对该市配送线路优化的参数设置仿真,本文采用图5—2所示的流程作为基本计算过程,以配送线路总长度为唯一衡量标准,以每只蚂蚁均完成一次遍历回到配送中心为1次计算,共进行2000次计算作为仿真终止条件。仿真中采用改变一个参数、其他参数不变的策略来探索参数的最优设置,蚂蚁的总数目设置为配送网点的总数目,缺省参数设置为口=1,∥=1,P=0.7,Q=100,仿真数据每10次取平均值作比较,同时取这10次运算中最小值为最优解,最大值为最差解,优差解差值为最差解减去最优解所得的值,仿真基础数据取该市烟草配送中心最大的一个配送区域的实际数据,仿真结果的统计数据如表5-2所示:参数取值平均值最优解最差解优差解差值0573.17549.11602.6953.580.5427.50391.71449.5157.80口1320.95314.15324.1810.032338.65323.78357.0233.240761.21701.93783.1281.19O.5361.12335.28370.1134.831320.95314.15324.1810.032314.33312.79314.952.165313.92312.79314.311.5210316.15314.87320.175.30B20324.80320.09330.6910.600.3319.81315.42322.046.620.5317.42313.58319.095.51O.7319.54313.83323.359.5249 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕上学位论文20080.9319.94317.52323.796.27p表5-2通过表5-2的统计数据并结合具体的数据分析,我们得到针对该市的配送线路的最优参数设置为P取0.47,口取0.94,∥取5.1,Q取100,所取得的实际仿真效果最好。5.2.5蚁群算法模型针对实际应用的系统仿真效果由于该市配送线路数量众多,配送网点分布比较分散,所以本文以其中精简的两条配送线路为例,来说明蚁群算法在该市配送线路优化中的仿真效果。现有8个配送点,要划分为2条调配送线路,用2辆载重为8000kg的汽车进行配送,每辆车的满载油的最大行驶距离是50kin,配送中心的ID标号为0,各配送网点的编号如表5—3所示:ID编号:1234客户名称:卢礼松商店潘雅云商店白翠月商店王平商店ID编号:5678客户名称:黄素秋商店梁月辉商店郑书霞商店毛瑞松商店表5-3配送中心与各配送网点、配送网点之间的距离如表5—4所示(单位:km):ID编012345678号0O3.55.578.519.59.515.57.513.5O63.59.54.5710.59.525.56079.57373.57O9.54.58.514.548.59.509.579.5519.54.59.54.59.506.58.5769.578.576.506.59.5715.510.578.578.56.509.587.59.5714.59.579.50表5-4分析历史数据,得到这8个客户的日平均需求量如表5—5所示:ID编号12345678需求量1212142(T)表5-5在计算过程中,我们引入了一个评估函数【21】:z划~铲‰(新50(5—11) 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008根据实际应用设置参数a、b、c为1、0、0,Za、zp、Z7为I、0、0,根据上文所述口取O.94,∥取5.1,这样评估函数Z的取值就代表了每次循环的总路程数。我们假设取20只蚂蚁,每次用2只来寻找路径,即蚁群将进行10次循环,计算结果为表5—6所示:计算次12345678910数总距离69.571.575.569.56771.573757168Z表5-6取评估函数Z值最小的一组路径作为最优结果,所得配送路径如表5—7所示:配送线路线路设置号l配送中心专梁月辉商店一郑书霞商店专王平商店j配送中心2配送中心专卢礼松商店一白翠月商店专黄素秋商店专毛瑞松商店一潘雅云商店一配送中心表5-7。一该市烟草公司配送线路存在着配送车辆利用率低、配送成本偏高、线路分配不合理等问题。使用蚁群算法对该市烟草公司配送线路的实际数据进行仿真,从仿真数据和工作流程上看上来看,该市烟草公司可以实现车辆装载合理化,配送中心员工考核规范化,领导决策科学化,并可以降低配送中心生产成本,当前数据与优化后的仿真数据对比结果如表5—8所示:名称优化前优化仿真数据配送里程/km58204130配送线路/km253205配送车辆/台4638配送人员/个9276配送费用/万元498.I347.3表5—8由表5-8的仿真数据我们可以发现:使用蚁群算法配送线路优化系统可为该市烟草公司节省配送车辆约19%,节约配送里程约29%,减少配送人员约17%,优化后车辆平均装载率达97.296,配送员工的日工作量从8d,时减少至6.5小时,工作效率提高了23%,线路优化系统的应用每年可以节省费用约为151万元。本文通过将蚁群算法的与实际情况相结合进行数学建模,用实际数据进行数据仿真得到针对特定应用的最优参数配置,从对实际数据进行的配送线路优化仿真数据上看,不仅可以提高了蚁群算法的全局搜索能力,而且通过详细的仿真数据证明了对烟草行业物流配送车辆线路优化问题,即使是在复杂真实道路情况下的超大规模配送的线路优化问题,蚁群算法仍然是一种具有较强优势的解决手段。蚁群算法为复杂的控制和优化问题提供了更有效的解决思路,受到越来越多的人的重视和研究,应用范围也开始遍及交通网络、电信网络等行业中的线路优化和路由计算等方面【221。但是,蚁群算法还没有形成系统的分析方法,也没有坚 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕士学位论文2008实的数学基础,计算时间偏长,更为关键的是蚁群算法的主要参数的选择现阶段主要是依靠实验和经验,还没有明确的定理或者公式来确定。但从本文的实际应用效果和其他研究人员的研究结论来看,这种模仿自然生物的新型优化算法在很多领域仍然具有十分光明的前景,深入的规律总结和理论推导还需要投入更多的研究力量。5.3本章小结本章介绍了物流配送中关键的线路优化问题,指出了线路优化问题的研究意义和研究现状,针对本文提出的信息系统一体化构架,本章介绍了该构架采用的在线路优化问题上新兴的解决方法即蚁群算法,在完整介绍了蚁群算法的理论基础上,本章针对本文所应用的实际项目情况进行了线路优化方面的仿真,从理论仿真的数据结果上看,取得了较为理想的效果。 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕十学位论文20086.1课题研究总结第六章总结与展望本文结合数据仓库技术、数据挖掘技术、计算机网络技术等先进的网络通信和产品应用开发技术,在实习工作期间,结合并整理在中邮科技公司项目实践经验,提出了基于数据挖掘技术的烟草行业物流信息系统一体化构架,以及将蚁群算法结合具体应用情况解决配送线路优化问题,在本次毕业设计中取得了以下的成果:(1)分析了物流业信息系统构建的发展现状,提出了利用新兴的数据挖掘技术应用于烟草行业物流信息系统构架,以及通过一体化构架集成烟草行业物流信息系统必要性;(2)结合实际情况,分析了烟草行业物流信息系统一体化构架的设计原则,在实际项目的基础上,利用详细的模块化实现了烟草行业物流信息系统一体化,并取得了不错的应用效果;(3)分析了当前数据仓库技术与数据挖掘技术的发展趋势,并将这两项技术成功地应用到烟草行业信息系统一体化构架中;(4)通过具体的数据结构设计与计算机网络技术的结合,在实际项目中实现了中心数据仓库的构建,验证了数据仓库技术在物流信息系统中应用的巨大优势;(5)重点在物流信息系统一体化构架中的控制中心和后台管理模块中引入了数据挖掘技术,能够为企业的决策提供强有力的数据支持,以及提高物流信息系统的性能,验证了数据挖掘技术在物流信息系统的应用中具有广阔的前景;(6)在实际项目开发中,代码实现了烟草行业物流信息系统一体化构架;(7)结合实际应用条件对蚁群算法进行了改进,并将其应用到实际项目的线路优化问题,使用实际数据进行了系统仿真,从仿真数据结果上看,得到了较好的理论效果,论证了在该项目中的线路优化问题中引入蚁群算法的可行性。6.2课题研究展望本文基于数据挖掘技术,对烟草行业物流信息系统一体化构架进行了设计并代码实现,在构架中的一些模块引入了数据仓库技术和蚁群算法,也得出了一些较为重要的结论。但是,由于客观条件和时间的限制,对该构架中的一些模块具体细节实现,以及物流行业信息系统的一些新兴技术,还有待进一步的研究;本文提出利用蚂蚁算法进行线路优化尚且停留在理论仿真阶段,未能通过代码实现;本文主要基于的数据挖掘技术,其理论研究和实际应用还主要处于研究与探索阶段,这些都是以后的课题研究热点。由于时间仓促、个人能力有限,本文研 基于数据挖掘技术的物流信息系统的研究与实现北京邮电人学硕上学位论文2008究的深度与广度仍有待提高,不足之处在所难免,恳请各位专家、老师和同学不吝赐教,批评指正。 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008参考文献【l】刘晓杰,王金亮,秦剑等烟草行业应用信息系统技术框架研究与分析中国烟草学报2001年9月第7卷(3)42.46【2]RalphKimball,LauraReeves,MargyRossWarrenThomthwaiteTheDataWarehouseLifecycleToolkit:ExpertMethodsforDesigningDevelopingandDeployingDataWarehousesJohnWiley&SonsIne2002年(5)28—32【3】刘华明,时良平,赵健无线局域网技术在烟草数字化仓库中的应用电气时代2006年10期18.2l【4】邹霞面向烟草行业的动态同城配送模式研究[学位论文】山东大学2006【5】周国祥,汪秀林基于数据仓库的烟草营销决策支持系统的研究与设计铜陵学院学报2006年67.69【6]范德辉基于数据挖掘技术的物流信息系统的研究【学位论文】中国海洋大学2006[7】高洪深决策支持系统(DSS):理论方法案例北京清华大学出版社2000【8]刘耀宗基于数据仓库的物流信息系统【学位论文】南京李工大学2004【9】何建安基于物流信息平台的OLAP系统设计及实现‘[学位论文】武汉理工大学2005【10]唐理兵面向空间数据库的空间数据挖掘应用研究[学位论文】安徽大学2005【11】冯亚数据挖掘中决策树分类算法研究与应用【学位论文】西北大学2007【12】蔡元萃基于数据挖掘的CRM需求预测模型研究及应用[学位论文】中北大学2007[13】朱建平数据挖掘的统计方法及实践北京中国统计出版社2005年10月【14】王晓红高洪深数据挖掘技术在大型超市中的应用研究北方工业大学学报2003年9月第15卷(3)31.35【15]文0华明卷烟配送数字化仓储系统的研究和开发【学位论文】北京邮电大学2007[16】胡红春,吴耀华,廖莉物流配送车辆线路的优化及其应用山东大学学报(工学版)2007年8月第37卷(4)[17】郭耀煌,李军车辆优化调度成都成都科技大学出版社1994[18]DORIGOM,MANIEZZOV,COLORNIATheantsystem:optimizationbyacolonyofcooperatingagentsIEEETransactionsonSystemsMan&CyberneticsB199626(2)29241【19】黄席樾,胡小兵蚁群算法在K.TSP问题中的应用计算机仿真2004第2l卷(12)1622164【20】叶志伟,郑肇葆蚁群算法中参数Q、B、P设置的研究——以TSP问题为例武汉大学学报信息科学版第29卷(7)[21]沈彬,汪雄海改进蚁群算法在物流配送中的应用研究【学位论文1浙江 基于数据挖掘技术的物流信息系统的研究与实现北京邮电火学硕上学位论文2008大学2004年2月【22]邓玉芬,向风红蚂蚁算法在组合优化中的应用[J]电子测量技术2007年1月第30卷(1) 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008致谢本论文是在校学习和在中邮科技物流系统集成公司实习期间,经过一年多的努力学习和工作,如期完成的。除了我自己的努力学习和工作外,论文的顺利完成也离不开我的导师、领导和众多同学、同事的帮助、指导。首先,衷心地感谢我的导师时良平教授、郝仰梅教授。在整个毕业设计和论文的撰写过程中,时老师和郝老师自始至终给予了我悉心的指导,提出了很多宝贵的意见和建议。老师广博的知识、开阔的眼界、严谨的治学和认真的工作都给我留下了深刻的印象,并对我产生了很深的影响,使我逐渐培养起了认真严谨的学习和工作态度,这对我未来的学习和工作是至关重要的。感谢中邮科技物流系统集成公司各位领导和同事对我的关心和指导,感谢赵健、李志锋、沈泉、商国良、张星航等同事对我的帮助。在实习期间,我得到了很多锻炼的机会,增长了很多宝贵的知识,积累了丰富的实践经验。感谢张兵涛、李捷、郭挺、董叶童等实验室的同学,他们给予了我很多学习、工作和生活上的帮助。最后,感谢我的父母、家人,无论是在学习、工作、生活上,是他们多年以来无私地奉献、鼓励和支持,使我能够集中精力、充满信心地投入到我的工作中。这篇论文的顺利完成与他们的帮助是分不开的。在过去的两年半研究生学习、生活中,除了上面提到的各位,还有很多同学和朋友都给予了我耐心的帮助、很多的鼓励。这里,向所有关心和帮助过我的人们表示衷心的谢意。57 基于数据挖掘技术的物流信息系统的研究与实现北京邮电大学硕士学位论文2008攻读硕士学位期间发表的论文【l】李廷佳郝仰梅赵健2008年2期【2】李廷佳郝仰梅赵健论文在线《蚁群算法在烟草行业物流配送线路优化中的应用》现代邮政《基于数据挖掘的烟草行业物流信息系统一体化构架》中国科技58

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭