实验室动态

[2020 SIGKDD] Sliding Sketches : a Framework using Time Zones for Data Stream Processing in Sliding Windows

苟向阳关于滑动窗口模型下数据流摘要的论文 Sliding Sketches: a Framework using Time Zones for Data Stream Processing in Sliding Windows 被 SIGKDD 2020接收。

由于数据流具有更新速度快,数据量大的特点,对数据流进行摘要以支持近似查询是近年来的研究热点之一。数据流上常见的查询包括对数据项的存在性查询,频率查询,以及寻找频率超过特定阈值的高频项提取等。另一方面,由于大部分应用对于数据时效性具有要求, 只关注最近的数据项的滑动窗口模型也得到了广泛关注。本文提出一种用于滑动窗口模型下的数据流摘要的框架算法Sliding sketch,该算法可以被应用于多种已有的摘要算法,从而使其在滑动窗口模型下也能高效工作。通过使用Sliding sketch框架,我们可以为上述的多种数据流查询提供近似回答,且准确度远高于已有算法。