在大数据时代,网络中持续生成的高速数据流构成动态序列,其元素间的蕴含的模式为网络安全、流量分析和实时监控等领域的决策提供了重要依据。然而,大规模数据流通常呈现动态分布、高度偏斜与快速变化的特征,导致新型模式不断涌现,从而对数据流处理系统的实时性与准确性提出了更高要求。传统数据流处理方法在受限资源约束下难以同时满足低延迟与高精度的双重需求。为此,Sketch概率数据结构以可控的轻微误差换取时间与空间效率提升,支持单次遍历场景下高效模式检测,已成为数据流处理的关键支撑技术。但在持久性模式检测这一核心任务中仍存在两个瓶颈:一是如何在跨多个时间窗口中准确估计数据元素的频率;二是在资源受限条件下,如何在识别高频(热项)与低频(冷项)元素之间达成精度与开销的平衡。

图1 Hypersistent Sketch框架图

图2 Hypersistent Sketch框架内部结构图
在国家自然科学基金重点支持项目(项目号:U22A2036)等项目的支持下,团队提出了一种全新的持久性模式检测框架 Hypersistent Sketch。该框架采用了由 Hot Part、Cold Filter 与 Burst Filter 组成的三阶段协同结构(如图1和图2所示),通过高效的热冷分离与动态适配机制,全面优化了内存效率、检测精度和处理性能。具体而言,Burst Filter 针对频繁更新的热持久元素,通过推迟更新操作以减少冗余计算,显著提升整体吞吐量;Cold Filter 负责识别并剔除低频元素,避免其占用关键内存资源,增强对潜在持久性元素的检测能力;Hot Part 专注于跨窗口精确统计持久元素,保障检测结果的稳定性。整体上,Hypersistent Sketch有效破解了持久性检测中长期存在的热冷平衡与跨窗口估计难题,在确保检测精度的同时显著降低系统开销,可适用于包括网络数据流的稳定性检测与优化等在内的高要求工业互联网络安全场景,展现出良好的实际价值与应用前景。
实验结果表明(见图3),该框架在多项关键性能指标上显著优于现有主流方法,尤其在高强度、高动态变化的工业互联网的数据流环境中表现出极佳的资源友好性与实时处理能力。成果已被国际数据挖掘领域顶级会议 41st IEEE International Conference on Data Engineering (ICDE 2025, CCF-A) 正式接收。

图3 Hypersistent Sketch实验结果
哈尔滨工业大学(深圳)张伟哲教授团队立足国家战略需求和学术前沿,长期从事网络安全、人工智能、大数据、云计算等领域研究,发表期刊和会议论文300余篇,编著著作3本。主持国家自然科学基金重点项目、国家重点研发项目课题、广东省重点研发项目等;获得2020和2017年黑龙江省科学技术奖科技进步奖。张伟哲教授是国家级人才,二级教授,任哈尔滨工业大学计算学部网络空间安全学院副院长、鹏城实验室新型网络部副主任、科技部十四五国家重点研发计划网络空间安全专项专家组成员、国家自然科学基金信息学部评审会专家、国家重点研发计划项目评审会专家、ACM 高级会员,IEEE 高级会员,CCF 杰出会员。(审核 王德胜)