数据血统(Lineage ,Provenance,Pedigree)亦可译为(血缘、起源、世系、谱系),是近几年随着数据库和网络的发展而发展起来的一个研究领域,其内容主要包括数据血统的计算、存储、传播和查询等。对于数据库系统,有时需要追溯查询结果的来源,以衡量数据的可信度、数据的质量等。
数据 血统研究的目的主要是通过数据血统追踪,在分布数据共享时可以解决数据的可信度、质量、版本信息等,对于各种导出数据集也能解决这些问题。通过数据血统追踪,根据集成视图查询数据库或数据仓库时,可以获得结果数据的来源信息。更新数据库或数据仓库中的统一视图时,反应原始数据库的变化,可以维护时空一致性。通过数据血统追踪,可以获得数据在数据流中的演化过程。
数据血统记 载了对数据处理的整个历史,包括数据的起源和处理这些数据的所有后继过程(数据产生、并随着时间推移而演变的整个过程)。数据血统的相关研究近几年吸引了数据集成、Web搜索、语义标注、海量存储等领域学者的广泛关注。
数据血统涉及的计算机研究方向有:数据挖掘、工作流、时间自动机、不确定数据分析、复杂事件处理、OLAP 、数据库查询优化等。对于Web环境,分布式数据共享日益突出,数据的来源对于分析数据、跟踪数据的动态演化、衡量数据的可信度、保证数据的质量等尤为重要。查询求逆是在血统追踪时通过对查询或者视图定义进行分析,求逆(执行逆查询)的结果就是数据的血统。由于它是在需要用到数据血统时才进行计算分析,因而又称为“lazy”方式。
内容来自 : 百度知道 - 什么叫做数据血统分析?
文章评论