欢迎来到天天文库
浏览记录
ID:37748577
大小:37.00 KB
页数:7页
时间:2019-05-30
《经济普查全国数据库优化方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、经济普查全国数据库优化方案 随着各省、自治区、直辖市(以下简称:各省级单位)的第一次全国经济普查(以下简称:经济普查)数据上报工作接近尾声,国家级数据处理工作正大规模地展开,经济普查全国数据库的建设也被提上日程。国家级数据处理的主要任务包括下面几项: 1给各省级单位报送的数据建立处理环境,执行统一的审核、汇总程序,并将结果与同时上报的审核错误清单和汇总数据进行比较,如果两者不同或有其他问题,通知原报送单位重新报送; 2将各省级单位报送的数据合并到一个处理环境中,执行各专业要求的审核、汇总程序,并由各专业做进一步的审核、查询得出最终确定的数
2、据集。将来在此数据集基础上可以构建全国基本单位名录库和其他专业的全国数据库,提供给各级政府统计部门、其他政府部门和科研机构使用,即建立经济普查全国数据库。 3按处理地从全国处理环境中合并导出各省级单位数据并建立独立的处理环境,再次分别执行统一的审核、汇总程序,并由各专业确认无误后反馈各地区。国家级数据处理的流程和省级、地(市)级没有本质的差别,国家级和省级处理的最明显差别是数据量上的差别,填报目录(法人单位+产业活动单位)记录超过了700万条,其他30余张专业基层表的记录从几十万到数百万不等。因此,实现快速地从如此大容量的数据库中提取数据(查
3、询)、分析、统计以及提取数据后进行数据展示,已成为亟待解决的难题。经济普查数据汇集到国家级的时候,数据库的性质已经逐渐地发生了改变,从一个联机事务处理(OLTP)系统转变为一个决策分析支持(DSS)系统。联机事务处理系统有大量的用户同时连接,并发操作很多,有大量的数据增删改,而每次更改涉及的记录数较少,对系统的响应时间要求较高。决策分析支持系统是大数据量的查询,大批量的数据导入和导出,涉及的记录数很多,对系统的响应时间要求不太高,但是对一个长时间操作耗费的总时间要求提高。由于两种类型系统应用特点的巨大差异,在联机事务处理系统中有效率的设计在决策
4、分析支持系统中变得不再有效率,需要进行分析、调整、优化。一、减少数据冗余在数据采集阶段,调查对象的数据的一些统计特征,例如某专业基层表的填满率,数据量地区分布等是未知的,尽管可以从历史数据中获得某些信息,但全国的统计特征信息不一定适用于地方,因此数据采集系统中不需要考虑数据的统计特征。数据汇集到国家级后,即使个别数据还会进行订正、增补,但总体来说,数据的整体特征已经固定,不会有大的改变。为了提高进一步处理的效率,就得针对既有数据的统计特征进行数据结构的调整,其中最首要的,是减少数据冗余。所谓冗余数据,有两种含义,第一种,是指在数据库中多个地方重
5、复存储的数据,第二种,指的是基层没有填写,而由于应用程序设计的原因在数据库表中填充并遗留下的大量空白。减少数据冗余并不应该随着硬件系统处理能力、运算速度和存储容量的提高而被忽视,相反,重视并减少冗余更能发挥硬件系统的能力。通过对几张定长二维表的统计,我们发现它们均存在第二种冗余,冗余的比例从60%至80%不等。以规模以上工业企业能源购进、消费及库存表的二维子表(下面简称606表)为例,参加填报的单位约有27万,共530万条记录,而其中至少一个有效字段(不包括uuid和数据项行代码)有数的记录仅95.4万,冗余比率达到了82%。而恰恰是606表,
6、其导出文件长度和导入耗费时间均列第一批上报的各表的首位。经过测试,我们用数据库的SQL命令删除冗余记录后,应用程序的执行没有发生错误,而无论是审核、汇总、导入、导出还是查询时间都大幅度下降。原因有以下几方面,物理存储数据块的减少使I/O访问的次数减少,记录数的减少一方面使表扫描行数和叠加计算的次数减少,另一方面使索引文件的长度变小,维护开销降低。也许开发人员会提出异议,606表在业务规则中是定长二维表,删除冗余记录后就变成了不定长表,这不是违背了业务的需求?这种担心是有道理的,但不是不可解决的,我们完全可以在数据展示上给用户呈现一张定长二维表,
7、后台存储格式是用户不关心的,但对应用程序的执行性能却是关键的。事实上,ePras程序已经做到了将不定长表存储格式数据展示成为定长二维表。只是按不定长表存储定长二维表在数据导入时需要和不定长表一样考虑空行覆盖等问题。606表产生如此巨大的冗余,这是由企业生产经营情况决定的,大部分企业都只购进、消费及库存了22种能源的少数几种,这个比例就是1减去上面给出的82%,即18%。607,612,621表也都存在和606表相同的第二种冗余,可以用同一种办法加以优化。除了定长二维表,不定长表也存在数据冗余,不过主要是第一种,其影响也不如上述各表大。以规模以上
8、工业企业产品生产、销售、库存表为例(下面简称603表),603表的字段设计完全与表样一致,除了保存产品代码外,还保存了产品名称和计量单位,实际上,产品
此文档下载收益归作者所有