数据流通常被定义为不断到达的元组所构成的无限数据集,或是一个连续、无界、顺序、时变的元组序列,对它的应用大多是监控型的,即持续运行在连续数据流上的连续查询。在传统数据库系统中,其处理的对象是持久的关系,接受的是即席的查询,查询计划是固定的,查询执行模式是随机访问数据库并且可以对其多遍扫描,应用没有实时性要求,数据以“拉”的形式来传送。而在数据流系统中,处理的对象是暂态的流,注册的是连续查询,查询计划需要不断调整以适应新的数据,查询执行模式只能是顺序的一遍扫描数据,应用具有实时性要求,并且数据传送是以“推”的方式进行的。数据流的特点主要有:

无限性:在模型抽象中,数据流被看作是无限的,无法通过物理介质整体存储数据流。

时序性:数据流的时序性有两方面含义。一方面指元组按序到达,不能在整个数据流上实现随机访问。另一方面指其元组当中通常包含直接或间接的时间标签,如时间戳,序列号。

不可再现:由于数据流具有无限性,且不能随机访问。在研究中,数据处理后即丢弃,除非刻意保存,数据不能被再次访问。

存在概念漂移:概念漂移指数据流所包含的信息随时间变换,导致以前的模型或方法不再适用。

噪声:噪声不是数据流所特有,但由于概念漂移的存在,如何区分噪声和概念漂移是数据流挖掘面临的一个挑战。

数据到达是实时的,且顺序是独立的,不受系统控制。

大小和规模不可预知