欢迎来到天天文库
浏览记录
ID:33487220
大小:415.55 KB
页数:4页
时间:2019-02-26
《人口统计数据仓库的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机科S/:2003V01.30N9.10(增刊)人口统计数据仓库的设计与实现¨TheDesignandApplicationofPopulationStatisticDataWarehouse杨文川1郁文生2黄涛3(北京邮电大学电信工程学院北京100876)1(中国科学院自动化研究所复杂系统与智能科学实验室北京100080)2(北京大学光华管理学院北京100871)3AbstractThispaperisintendedtoexploretheconstructionandapplicationofdatawarehousetechnologyinpopu—lationstatisticI
2、tpresentsthebuildingofPopulationStatisticDataWarehouseSystem(PSDWS),includingdataex-tractionandcheck—up.datanormalization。andamechanismtosupportmarketanalysisandforecast.ThepaperalsosummarizessomebasicrequirementsforapDlymgdatawarehouseinpopulationstatisticikldsandrealizedmWan—fengDataWarehouse.Keyw
3、ordsPopulationstatisticdatawarehouse.Metadata1.引言我国人口统计自80年代以来,通过三次全国人口普查,五年一次的1%人口调查和每年的1‰人口变动情况抽样调查.已经形成了比较完善的人口统计调查体系,第五次人口普查是世纪之交最重要的一次国情调查,不仅反映我国人口规模、分布、结构、流动等人口态势量的方面,还将从受教育程度、所从事的行业、职业、人民居住水平等视角,描绘出我国人口在质的方面变化。这种变革将深刻地影响我国人口数量、结构和分布的变化,出现了人口增长速度减缓、流动人口增加、人户分离突出、人口结构向老龄化转变、人口受教育程度提高、城市化进程加快、就业
4、方式日益活跃、就业压力增大等多种现象。反过来,人口的这种变化又必将影响着社会经济的发展。因此,建立人口数据仓库是深层次分析研究人口与社会可持续发展的要求。因此,建立一个面向z1世纪的反映人口数量、人口结构和人口素质的统计数据信息平台是非常重要和非常必要的。2.人口数据仓库的设计统计信息化建设的核心是统计信息的应用和管理,数据库是信息存贮和管理的重要形式。数据库是计算机管理和处理信息的主要应用技术。从应用方向上看,数据库技术大致划分为两大类:操作性处理和分析性处理(或信息性处理)。数据仓库的经典概念由w.H.Inmon于1992年最早提出:“数据仓库是20世纪90年代信息技术构架的新焦点,它提供
5、集成化和历史化的数据,集成种类不同的应用系统,数据仓库从事物发展和历史的角度来组织和存贮数据,以供信息化和分析处理之用。”我们设计的人口数据仓库系统分为源数据、仓库系统和分析模型系统三个部分:(1)源数据库:数据主要来自调查数据库。(2)数据仓库系统:数据仓库建设是利用数据仓库制作和设计工具,将相关的数据从调查数据库内集中到数据仓库。(3)数据展示和联机分析系统:在仓库数据基础上,将分析所需的数据形成分析数据集市.选择分析、预测模型,进行分析、推算。最后,将分析结果由在线分析软件和报表传递给分析用户。系统的结构和数据流程如图1所示。2.1源数据库·原始数据与源数据人口统计的原始数据是指普查和调
6、查处理后的数据,它包括微观数据和宏观汇总数据。具体有:第五次人口普查数据;第四次人口普查数据;1%人口抽样调查数据;历年人口变动调查数据;局内统计报表制度内的相关数据;公安年报统计相关数据;计划生育部门的统计相关数据。数据仓库的源数据是对原有数据的再整理,整*)本文研究得到国家自然科学基金“60204006”项目资助.杨文川博士,副教授.硕士生导师,主要从事数据仓库和决策支持系统的研究;郁立生博士.副研究员,博士生导师.主要从事数据挖掘.复杂系统与智能科学领域的研究;黄涛博士后.副教授,主要从事宏观经济领域决策支持系统的研究.·154·理的内容包括:对原始数据的统计指标口径调整后的汇总或测算。
7、如:“四普”数据按“五普”口径进行汇总,产生新的数据;存贮格式的规范化。“五普”数据是Oracle数据库管理,其他数据为FoxPro数据库或文本文件形式。·统计指标厦报表制度描述的规范化与无数据库建设原始数据被整理成源数据是根据《国家统计报表制度》中的统计指标描述。描述对数据特性的数据称之为元数据。统计指标描述就属于元数据的范畴。规范统计指标描述,建立统计元数据库,也是统计信息化的基础建设。建立和
此文档下载收益归作者所有