对数据敏捷采集的思考.doc

对数据敏捷采集的思考.doc

ID:51473505

大小:58.50 KB

页数:2页

时间:2020-03-25

对数据敏捷采集的思考.doc_第1页
对数据敏捷采集的思考.doc_第2页
资源描述:

《对数据敏捷采集的思考.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、各类信息系统持续推进发展,应用领域和覆盖延伸范围不断扩大,支撑业务逻辑的各类数据不规范、不准确、不新鲜,严重制约了信息系统效能发挥,逐渐成为信息化建设的瓶颈。对数据采集特点再梳理分析,探索满足不同层级数据需求的新途径,解决数据采集耗时、耗力,数据成果质量不高、失真度大等问题,很有必要。-、矛盾问题目前,数据采集发起方指定采集目标,拟定采集对象和内容,明确数据规范标准,划设参与单位范围,开发相关软件工具,数据借助采集软件自下而上由人工筛选录入,逐级汇聚,形成预期的数据成果。但在实际操作中,存在一些问题:

2、(一)传统软件开发不适应模糊釆集需求。通常情况下,数据采集时,数据釆集发起方对某些对象实际情况不完全掌握,期望通过数据采集的手段,完成对这些对象的具体化认知,数据模型,尤其是规范标准(数据字典)初识状态较为模糊,需要通过多次数据釆集活动螺旋上升式迭代完善。但是,数据釆集软件开发是需求分析、模型设计、软件开发、测试部署依次递进的过程,需求认识不准确、需求变动经常会导致数据采集周期延长,功能畸形难用,数据产品不“新鲜”。(二)客观对象的数据多重表达。客观对象通过数据得到具化,在不同视角中具化方式各界,数据

3、采集的需求跟随视角发生变化;汉语多语义表达,使得不同人员对同一条目数据的表达和理解也不一致。现实中,会普遍存在不同层级掌握的数据情况难以满足其他层级采集的需求,需要再对数据采集扩展补充;逐级汇聚的数据同义多种表达,数据质量差,清洗汇聚数据任务量大,还可能导致数据失真。二、目标愿景针对数据采集的特点和现行软件问题,探索改变传统的软件设计方法,开发一套写数据采集软件的软件,实现采集需求按层级随意定制、采集软件自适应需求调整、用户填报简单智能、数据产品各层级联、数据字典语义汇集。从用户使用来看,数据采集方利

4、用一套智能软件,需要采集数据时,在可视化的界面上,通过拖拽的方式,创建新的或修改历史采集对象模型,一键式牛成、发布采集系统(Web版):数据采集人受领采集任务后,可结合本单位实际,用相同的方法继承、拓展采集对彖模型,生成、发布相应的采集系统(Web版);数据填报时,数据条目根据数据库己存在数据条目,得到智能填写和辅助规范。三、技术支撑冃标愿景核心就是最大程度凸显数据采集本身,隐藏数据库设计、操作、维护,采集软件需求分析、设计开发、运行维护,数据语义分析、清洗规范等技术细节,实现数据采集更简单、更普适、

5、更智能,需要具备以下核心功能:(一)可视化建模。主流的关系型数据库通过表、表关系,按照范式规则设计和表达现实世界对象及对象间关系,存在数据采集对象向数据库建模的一次转换。定义采集对象模型时,参照Visio绘图的方式,用基木图形代表采集对彖及其属性,用线条、箭头、圆圈等定义对象间继承、顺序、包含等关系,通过增加、删除、挪动等图形的方式,直观地定义、修改采集对象及对象间的关联拓扑,将复杂的数据库建模简单化、可视化。(二)DDL(数据定义语言)正向生成。首先,按照XML、JSON等主流数据格式,再次描述图形

6、代表的模型内容,将图形化的数据库模型,序列化成程序可读的数据文件,存储于本地、服务器硬盘或数据库等硬介质,用于后续解析、再分享和利用。其次,解析数据库模型文件对采集对象的定义和设计,结合SQL标准和SQL方言(如T-SQL,P-SQL)的语法规则,拼接牛成数据库定义语句(如Create>Drop等),由各数据库软件执行创建数据库、表、关系、约束等,实现专业性较强的数据库操作后台自动化处理。(三)逆向软件牛成。在SOA(基于服务的编程框架)下,首先,WebService将业务逻辑转化成SQL逻辑,并逆向

7、获取数据表定义内容(如:字段名、数据类型等),拼接形成DML(DataManipulationLanguage),生成数据增、删、改的SQL语句,生成序列化的字符串格式的结果集;其次,Web应用按照HTML标准,解析WebService形成的结果集,牛成页面模块,由无需编译的脚木语言(JavaScript>Python等)进行拼接,形成完整的UI展现和交互逻辑。(四)数据智能规范和积累。随着数据条目增多,数据内容会逐渐形成倾向性和规范性,通过语义分析,汇聚和合并相近的表达方式,剔除和修改不规范的内容,

8、滚动形成高质量的数据内容;另外,数据釆集可以借鉴历史采集模型,继承、扩展、派生出新模型,利用历史采集模型已形成的数据产品、数据规范等,减轻数据采集重复的工作量。四、结束语本文提出以数据模型、数据内容逆向驱动牛成程序的想法,力求实现采集静态结构化数据时,快速生成和部署采集软件,智能简化基层填报负担,简单语义汇聚数据字典等冃标。将来,数据会更多地从采集对象行为中自动获取传感器、智能终端等动态数据,更深层次处理菲结构化数据,智能迭代生成更新鲜、更深层次的数据产

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。