- 收藏
- 加入书签
信息系统数据共享与交换方法设计构想
摘要:我们已经进入到互联网、大数据时代。在大数据时代,数据的开发与再次利用在很大程度上依赖于数据共享(Datasharing),数据共享成了大数据公司重要的盈利模式,没有数据共享,将难以对数据进行二次开发,数据也难以成为财产,数据产业也难以发展。数据共享能实现数据资源的重复利用,降低数据收集成本,实现同类数据社会效益的最大化。在大数据环境下,各主体可以更便捷地共享数据资源,这样既能节省成本,又能创造更大的社会效益,最大限度地攫取“数据金矿”。
关键词:信息系统数据共享;交换方法;设计构想
引言
信息系统数据共享中心承担的任务配套信息系统建设成果显著,涵盖了场景监测、目标识别与定位、信息传输、信息处理、信息显示等领域,增强了信息获取手段,丰富了信息获取量和种类,同时也带来了各类信息共享、交换和综合利用的需求。已建的多个信息系统采用不同的硬件、软件技术和体系结构进行构建,各信息系统的数据采用独立存储方式,传统的对数据直接进行访问和存储的数据交互方式已经不能满足数据共享和交换的需求,为了更好地利用这些来之不易的数据,从中挖掘、分析隐性数据规律,本文提出了一种数据共享与交换系统的设计思路,以主数据管理为切入点、面向服务的体系结构(SOA)思想为总纲,在不改变现有系统的基础上实现跨平台数据访问,实现各类信息系统的数据统一和共享,为数据复盘、数据综合利用提供方法借鉴。
一、数据共享中应当强化个人信息的保护
数据是信息的表现形式。在互联网时代,其主要就是指以电子化方式存储的信息。数据分享是数据控制者将自己所收集的信息与他人进行分享,在数据控制者与分享者之间形成一种合同关系。相对方被称为数据再使用(DataRe-use)方,即那些被授权访问数据的需求方①。数据共享概念主要是在机构、平台层面上使用[3],它是指不同机构、平台之间的数据交换。数据共享可以是有偿或无偿的,但一般不包括政府的数据公开行为。
由政府统计部门公布的数据,都是公开的,除非涉及保密信息。已经公开的个人信息,其共享和利用不应当受到严格的限制。政府向社会公众开放其在执行管理职责过程中收集的各项数据,本质上是向公众提供的一种公共服务,政府并不对数据本身享有独占性权利,任何人都有权通过对这些数据资源的分析和使用,发掘其中蕴含的社会和经济价值。质言之,政府公开数据的行为并不涉及财产权的让与,这是其与企业间数据共享行为最为本质的区别。
当然,政府数据开放的政策并不意味着可以对数据进行无限制地开放,如果涉及个人信息,则政府也应当采取必要的安全保障措施,防止个人信息的泄露,这与企业间数据共享的信息的要求是一致的。所以,许多国家在规定信息开放时,也都规定了强化个人信息保护的规则,即一方面强调信息的公开,另一方面强调对个人信息安全的保护。本文所探讨的数据共享并不包括政府数据的共享,而仅限于商业组织之间出于商业目的而进行的数据共享。从法律上看,数据共享既是一种数据财产的利用和使用行为,也是一种数据开发与再利用行为,同时,数据共享也可能是一种个人信息的收集、储存、利用问题。所以,数据共享并非单纯的财产法问题,其也涉及个人信息权、隐私权等的保护问题。蓬勃兴起的数据共享现象对人格权的保护提出了新的挑战,这也是21世纪科学技术爆炸、大数据的发展所带来的新问题。数据共享的发展要求我们高度关注对个人信息的保护,在我国正在制定的民法典中,有必要设置专门的规则,规范数据共享行为,强化对个人信息权利的保护,其原因主要在于:第一,数据中包括了大量的个人信息。
从世界范围来看,随着新技术的发展,云计算、移动消费、社交媒体上都不断产生海量数据,数据的采集、共享和优化的规模和速度都呈现出了井喷式的发展。在这些以电子化方式存在的信息中,确有一些数据属于本来应当公开或者可以公开的信息,如教育普及状况、大中小学生受教育的比例等方面的数据,或者学生的入学情况、脱贫的数据、适龄儿童入学或辍学等信息,即属于可以公开而且应当公开的信息。但在数据中,大量的内容包含了个人信息,即可以和某个特定的自然人相联系的信息。大量的数据涉及个人的信息和隐私,甚至涉及个人的敏感信息和核心隐私②。
例如,将个人病历资料开发成大数据,或者将个人的银行存款信息汇总开发成大数据。如果对这些数据资料还没有进行脱敏化DataMasking)处理,或者对脱敏化处理不完整,从相关的数据中仍然可以了解个人的相关信息和隐私,这就可能侵害个人信息权利和隐私权。通过大数据技术的运用,一些机构可以从相关的数据中分析出个人的身份、财产、消费习惯等方面的信息。
即使这些信息经过了匿名化处理,阻断了信息数据与个人身份之间的关联性,但由于数据共享涉及个人信息权的再利用问题,因此,相关主体在收集、利用个人信息数据的同时,应当以保护当事人对个人信息的控制权和隐私权为前提,信息的收集者和利用者应当负有保护个人信息和隐私的责任①。
第二,数据共享包括个人信息的收集和传输行为。所谓收集,是指相关主体获取个人信息的行为。随着现代科学技术的发展,使得个人信息的收集变得越来越容易,也越来越有效率。大数据技术能够通过特定的算法从信息中不断挖掘出新的信息,数据企业通过抓取信息,甚至通过机器深度学习,可以取得个人的大量信息。大数据掌握着我们的一举一动,甚至能预测我们的未来轨迹。通过大数据技术的运用,一些机构可以从相关的数据中分析出个人的身份、财产、消费习惯等方面的信息。而在收集到这些信息之后,一旦将其共享,则共享也成为被共享者收集个人信息的一种方式。数据共享实际上是数据控制者范围的扩张。从数据主体的角度看,数据共享与重新收集数据并无本质区别。
所谓传输,是在特定主体之间进行信息开放、披露。数据共享的过程就是数据开发者、控制者向被共享者传输数据的过程,被共享者如果再次将该数据共享,将导致数据的广泛传输。这个过程既是数据财产的流转行为,同时也涉及个人信息的反复收集、利用的过程。一旦缺乏规范,使数据的收集、传输失控,将导致大量的个人信息遭受不当使用,甚至是泄露。所以,数据共享之所以要取得数据权利人的同意,是因为数据共享本质上也是个人信息传输和收集的一种方式,是对个人信息的再次使用。由于共享的数据中包含了大量的个人信息,因此,合法的数据共享应当以合法的个人信息处理为前提②。从某种程度上说,对数据主体来说,个人数据的受让方是新的个人数据的收集者,其是否也应遵循与个人数据出让方相同的收集和利用规则,值得考虑。
第三,个人信息的共享也是个人信息的再利用方式。数据共享之所以是个人信息的再利用方式,除了共享本身是对个人信息的再利用,还有被共享者获得了这些信息数据后,其可能对其进行再次加工、利用,甚至再次进行共享。所以,不能由信息持有者随意共享给他人,被共享者也不能在获得信息之后随意再次共享或者允许他人利用,更不能将这些信息经过整合后再投入数据黑市进行交易。这些行为可能触犯刑法的规定,构成非法侵入计算机信息系统罪、侵犯公民个人信息罪等罪名。
当然,即便行为人的上述行为不构成犯罪,其也构成对他人个人信息权利和隐私权的侵害。数据共享最大的法律障碍在于,共享人可以在多大范围内共享所获得的数据,换言之,其可以将哪些数据提供给哪些主体并不确定。同时,其障碍还在于信息的被共享者在多大范围内使用和利用这些信息,而信息权利人能够在多大程度上对共享的数据进行追踪和控制③。如果在法律上缺乏规范,这些信息一旦被分享出去,将如脱缰的野马一样,信息权利人可能彻底丧失对其个人信息的控制。对信息主体而言,分享行为是否有偿是分享者和被分享者之间的关系,对个人信息安全的保护不应当有所差异。
二、系统设计
2.1系统概述
主数据被各信息系统所使用,需保持为内部惟一的、共用的核心数据版本。建设数据共享与数据交换系统,实现各个信息系统的主数据管理、主数据共享与交换,提供标准的数据处理及存储服务,是解决共享与交换问题的关键,是推动和实现资源整合和应用的必要基础设施。
2.2系统架构
2.2.1系统总体架构
根据软件工程的总体需求,系统建设时应按照统一的技术标准搭建一个通用的信息化基础架构,令现有信息模型及数据流程具备良好的集成、共享和协作能力,以灵活快速的方式适应将来日益复杂的需求,因此,需建立一套统一的应用数据规范与系统集成规范。
2.2.2系统应用架构
(1)系统主要职责。实现各个应用子系统的主数据管理,实现主数据的提取、共享与交换,提供灵活的数据接口,提供统一的标准化的数据处理及存储服务。(2)系统功能需求。(3)系统性能需求。对于简单的实时数据交换,数据交换系统的业务从接受请求到处理完成需控制在1秒内完成。数据交换系统稳定性相对较高,连续请求处理无故障应达到10万次以上。支持至少10个对实时或批量的主数据交换业务请求予以响应,拥有大并发量处理机制,具备实时与批量数据的均衡调度。对大数据包的处理,记录量在1万条左右,完成交换从接受请求到处理完成的时间控制在3分钟以内。采用面向服务的体系结构即SOA,通过WebService技术,搭建数据交换技术平台,实现面向服务架构的综合数据交换业务,从而为跨平台和跨系统的数据资源整合、数据共享、数据交换提供接入、转换和流程监控等基础服务。实现高效数据库实时复制。
2.3系统主要功能设计
2.3.1主数据管理功能
主数据管理(MDM,MasterDataManagement)主要关注于研究、分类和访问平台内的重要数据,为数据共享与交换平台提供统一的数据标准、数据视图和数据服务等,同时能够实现数据提取、数据管理、数据利用以及数据存储等。
(1)数据源管理。主数据分布在多个不同的系统,以及单个数据表、文档和桌面数据库等,数据源管理通过对上述主数据数据源的管理来实现主数据的获取,同时可获取主数据所在的系统、数据存储介质(结构化/非结构化)等信息。
(2)统一的数据编码格式。系统提供统一的标准数据编码格式供所有应用子系统进行参考,并在数据获取时进行数据编码格式检验以及标准数据编码格式转换。
(3)数据质量管理。持续性的数据质量下降是对数据管理永久的威胁,数据质量管理必须遵循完全性、符合性、一致性、准确性、重复性、完整性的原则制定数据质量改善计划,通过标准化、验证、纠正和增强主数据,从而实现对数据的清洗和解析。
(4)数据维护。用来实现对主数据的导入、导出及对主数据的维护和管理。
(5)数据审核。通过采取定期或不定期的方式,完成对主数据质量的评审,从而保证主数据的高质量和准确性,包括定期审核和不定期审核两部分。
(6)数据监控。通过智能化的消息监控和日志进行分析,从而保证数据获取与提供的过程平顺与稳健。监控管理可以取代人工的监控管理工作,能快捷准确地发现问题并支持多种警示手段。包括数据量监控、服务过程监控、服务应用监控、数据存储状态监控等。
(7)数据共享交换。很多情形下存在同一数据由多个系统来产生和维护的情况,因而在主数据管理过程中,会形成共享数据。数据共享与数据交换通过分发整合后的主数据,以确保在相互集成的信息系统中主数据的质量。
(8)数据报表。数据报告是通过统计主数据,自动生成各种数据的统计报表。
2.3.3数据分析
功能数据分析平台利用在数据交换平台处理好的数据进行数据的深度利用,利用数据仓库技术实现数据资源的综合利用。
结束语
本文通过对SOA基础框架中核心技术的研究,提出了基于SOA思想的数据共享与数据交换系统构想。系统是根据各分散的信息系统建设现状为基础,以向指挥中心和决策系统提供数据共享与交换平台且以数据支持为目的的架构,通过ESB,WebService等技术实现应用层面的决策数据在不同子系统间的互联互通、信息共享。
参考文献
[1]喻坚,韩燕波.面向服务的计算[M].北京:清华大学出版社,2011.
[2]胡德华,SOA之道:思想、技术、过程与实践[M].上海交通大学出版社,2011.
[3]刘炳林,构建最高可用Oracle数据库系统:Oracle11gR2RAC管理、维护与性能优化[M].上机械工业出版社,2012
京公网安备 11011302003690号