什么叫做数据血统分析?

数据血统(Lineage ，Provenance，Pedigree)亦可译为（血缘、起源、世系、谱系），是近几年随着数据库和网络的发展而发展起来的一个研究领域，其内容主要包括数据血统的计算、存储、传播和查询等。对于数据库系统，有时需要追溯查询结果的来源，以衡量数据的可信度、数据的质量等。

数据血统研究的目的主要是通过数据血统追踪，在分布数据共享时可以解决数据的可信度、质量、版本信息等，对于各种导出数据集也能解决这些问题。通过数据血统追踪，根据集成视图查询数据库或数据仓库时，可以获得结果数据的来源信息。更新数据库或数据仓库中的统一视图时，反应原始数据库的变化，可以维护时空一致性。通过数据血统追踪，可以获得数据在数据流中的演化过程。

数据血统记载了对数据处理的整个历史，包括数据的起源和处理这些数据的所有后继过程(数据产生、并随着时间推移而演变的整个过程)。数据血统的相关研究近几年吸引了数据集成、Web搜索、语义标注、海量存储等领域学者的广泛关注。

数据血统涉及的计算机研究方向有：数据挖掘、工作流、时间自动机、不确定数据分析、复杂事件处理、OLAP 、数据库查询优化等。对于Web环境，分布式数据共享日益突出，数据的来源对于分析数据、跟踪数据的动态演化、衡量数据的可信度、保证数据的质量等尤为重要。查询求逆是在血统追踪时通过对查询或者视图定义进行分析，求逆(执行逆查询)的结果就是数据的血统。由于它是在需要用到数据血统时才进行计算分析，因而又称为“lazy”方式。

内容来自：百度知道 - 什么叫做数据血统分析？

什么叫做数据血统分析?

相关

文章评论