什么是数据流

12月

2253 0 0

数据流通常被定义为不断到达的元组所构成的无限数据集，或是一个连续、无界、顺序、时变的元组序列，对它的应用大多是监控型的，即持续运行在连续数据流上的连续查询。在传统数据库系统中，其处理的对象是持久的关系，接受的是即席的查询，查询计划是固定的，查询执行模式是随机访问数据库并且可以对其多遍扫描，应用没有实时性要求，数据以“拉”的形式来传送。而在数据流系统中，处理的对象是暂态的流，注册的是连续查询，查询计划需要不断调整以适应新的数据，查询执行模式只能是顺序的一遍扫描数据，应用具有实时性要求，并且数据传送是以“推”的方式进行的。数据流的特点主要有：

无限性：在模型抽象中，数据流被看作是无限的，无法通过物理介质整体存储数据流。

时序性：数据流的时序性有两方面含义。一方面指元组按序到达，不能在整个数据流上实现随机访问。另一方面指其元组当中通常包含直接或间接的时间标签，如时间戳，序列号。

不可再现：由于数据流具有无限性，且不能随机访问。在研究中，数据处理后即丢弃，除非刻意保存，数据不能被再次访问。

存在概念漂移：概念漂移指数据流所包含的信息随时间变换，导致以前的模型或方法不再适用。

噪声：噪声不是数据流所特有，但由于概念漂移的存在，如何区分噪声和概念漂移是数据流挖掘面临的一个挑战。

数据到达是实时的，且顺序是独立的，不受系统控制。

大小和规模不可预知