视频文档

位置: 首页 -> 教学科研 -> 方班教学 -> 视频文档 -> 正文

【课后总结案例】​20241210-44-2-1-哈工大谢润泽-课后总结

时间:2025-10-16 浏览次数:

谢润泽-用于在线网络入侵检测的自编码器集成

一、过程反思

(一)过程总结

1.选题过程

未来研究方向为勒索软件的数据泄露行为检测,其检测内容包含各类网络协议。因此希望所选检测方案检测范围足够广,能够涵盖较多的协议。由于现有且公开的记录双重勒索软件数据泄露行为的流量数据集与流量文件(如PCAP、PCAPNG等)较少,因此需要检测方案对恶意流量数据依赖较小。此外,我们希望检测系统实时性以及内存开销较小,可以部署于计算性能较弱的设备上。基于上述种种原因,选择了Kitsune: An Ensemble of Autoencoders for Online Network Intrusion Detection作为汇报题目。

2.汇报内容准备过程

受叶麟老师的指导,在汇报内容准备过程中,牢记“求源”与“熵减”明确研究问题,对所选论文中针对研究问题的解决方案进行提炼与总结,对论文中给出的实验结果进行分析。因此对文章进行通读后,汇报内容共分为五部分:研究问题、研究内容、研究结果、研究总结。研究问题部分对论文研究的研究背景以及现有研究存在的问题进行阐述,并提出了论文对研究问题的解决思路。研究内容部分阐述了论文对研究问题所提出的解决方案。研究结果部分则列出了论文提出的方案的实验环境,以及对研究问题的解决效果与运行性能。研究总结部分对论文工作进行了简要总结,并提出该论文的启发以及对论文不足之处的反思。

论文的中文题目为“用于在线网络入侵检测的自编码器集成”,其研究问题为基于ANN的在线网络入侵检测系统。研究问题中的重点在于如何将ANN应用于分布式网络入侵检测系统中。由于分布式网络入侵检测系统部署设备往往计算性能较弱且网络流量规模较大,因此研究问题中的难点在于如何在不影响检测性能的情况下,使用较低的运行内存与检测时间对多个网络通道的数据包进行检测。在研究内容中,论文针对传统研究中存在的离线处理、监督学习、高复杂性等缺点,提出了自编码器集成体的在线网络入侵检测方案。论文针对传统研究中离线处理的缺点,提出了使用阻尼增量统计方法进行在线处理的方案。针对监督学习中训练数据需人工标记且攻击类型无法全部涵盖的缺点,论文提出了仅使用正常流量进行训练的基于异常检测原理的无监督学习方案。针对传统研究中高复杂性的缺点,论文提出了使用自编码器集成体以及特征映射的研究方案。最后在研究结果中,通过在评估指标TPR、FNR、AUC、ERR上对比分析多个离线检测算法、在线检测算法与基于签名的NIDS检测方案,得到了能够检测各种攻击,性能不弱于离线异常检测器的结论。并在树莓派与Ubuntu虚拟机上分别运行进行对照实验,分析Kitsune算法的运行内存占用以及检测时间。

研究总结中,对论文中异常检测模式、在线学习思想以及集成学习思路的启发进行总结与推理。针对论文中特征选择、数据集、参数设置等方面进行了反思,认为在上述方面仍有改进空间。

3.PPT制作过程

PPT制作过程中,经过叶麟老师的指导,主要对以下方面进行改进:

PPT衔接方面。整体结构依据汇报内容的五部分进行制作,即研究问题、研究内容、研究结果、研究总结。梳理清楚文章脉络,明确研究思路

B665

1 PPT结构

PPT图表方面。在制作过程中尽量使用论文原图原表,做到准确的表述原文的意思。

2 PPT图表

PPT表现形式方面。在每页PPT中文字做到精简关键词与重要部分

3 PPT表现形式


使用不同颜色或加粗表示。尽量做到图文并茂,以图表为主,文字为辅


(二)反思认识

要加强对论文要点的提炼总结,理解论文的研究思路,而非生硬的进行摘要与搬运。在叶麟老师指导之前,我只是对论文内容进行简要摘要,并大致按照论文结构进行介绍,分别是研究摘要、研究背景、系统设计、实验结果、实验结论。没有梳理清晰期间的逻辑关系,对于自编码器适用于无监督学习与异常检测的原因、检测特征使用多会话聚合的会话元数据的原因等前因后果并没有解释清楚。

从学术角度出发,着重介绍核心的思想、思路、想法、原理,避免过度陷入工程实现细节。对一些听众所熟知的知识没必要进行介绍,也无需介绍系统实现的详细参数与环境。自编码器的学习率、优化器、标准化函数等细节并非研究重点,无需详细罗列介绍。对于NEDS系统的部署环境并非核心内容,也无需详细介绍。

二、反响分析

(一)听众反响

1.学生反响

训练协调问题。同学对检测系统的训练阶段存在困惑,提出特征映射器需要学习特征映射的方法,而异常检测器也需要学习映射后的特征子集,两者在训练过程中该如何协调。这是由于论文中写的比较模糊,我个人认为是分为二阶段训练的。首先训练特征映射器,特征映射器训练完毕后再次使用训练数据集训练异常检测器。

特征提取问题。同学对规则外的特征提取存在疑问,指出若到达数据包不符合特征提取的规则该如何处理。这是由于PPT篇幅有限,没有讲将规则外的数据包的特征值置0。

旧实例问题。同学对论文所选取的阻尼增量统计算法以及时间窗口算法作用产生了疑惑。这是由于我对背景介绍不够详细导致的。数据包序列中前后文具有较强的联系,历史数据包对当前数据包的检测仍然起到一定作用。

滑动窗口问题。同学对论文中数据增量方法产生了疑问,并提问是否将阻尼增量统计算法换为滑动窗口算法。这是由于我对阻尼增量统计算法作用讲解的不足导致的。滑动窗口可分为数据包滑动窗口以及时间滑动窗口。数据包滑动窗口会忽略数据包之间的时序信息,时间滑动窗口则会降低系统的实时性。

NIDS联动问题。同学对论文中将Kitsune与基于签名的NIDS联合使用产生了疑问,并提问其是否能检测0day攻击。这是由于我对Kitsune与基于签名的NIDS联合使用讲解不够清晰导致的。作为缓解措施,而非解决措施。Kitsune与基于签名的NIDS联合使用仅仅能够缓解一部分已知攻击对数据集的污染,并非根除数据集污染的万全之策。

2.老师反响

参数m问题。何老师指出参数m是否会随着网络环境变化而变化。由于参数m关系到自编码器的最大输入特征维度与特征映射中特征子集的最大元素数量,m的选取会影响到整个系统的运行效率。因此我们可以依据当前网络环境手动调节参数m,在保证检测效率大于预期的数据包达到效率的同时,尽可能增大检测性能并降低内存占用。

代码实现问题。何老师指出本论文代码已开源,并有了后续研究,建议结合代码理解论文并跟踪关注后续研究。

PPT设计存在问题。金老师指出PPT中对于NIDS的背景介绍并不详细,需要对现有NIDS的优缺点以及本文中分布式NIDS的优缺点进行详细介绍。在后文介绍Kitsune优点时进行前后文呼应,回馈前文。以及后续图表中图例颜色的介绍。

(二)改进措施

1.学生反响的改进措施

数据集污染问题。我认为可以尝试利用特征空间中正常流量与恶意流量分布的不同,来对恶意流量进行过滤并抑制标签噪声。

特征提取问题。我认为可以依据具体检测流量的协议,从其他维度选取特征。如检测DNS协议使用域名维度特征,检测加密协议(TLS/SSL)使用证书维度特征等。

2.老师反响的改进措施

PPT设计问题。在制作PPT时,详细背景介绍,并增加必要的图例说明。

跟踪研究问题。在阅读论文的同时,结合论文开源的代码一同增强理解。

三、作法理解

(一)对老师点评的理解

孔志印老师指出需要多关注主题。论文主题为分布式入侵检测系统,在论文讲解的过程中应围绕分布式入侵检测系统这个主题展开。例如分布式网络入侵检测系统在数据采集过程中的特点等。

孔老师指出对特征提取背后的原理加强理解。所选取特征的作用以及选取此类特征的原因需详细理解。

(二)优化作法

在讲解主题方面。我们在讲解时需围绕主题进行展开,在方案的原理、实现以及优点等方面回馈主题。

在特征选取方面。我们需要注重特征选取背后的原理。


(审核 蒋琳)


请升级浏览器版本

你正在使用旧版本浏览器。请升级浏览器以获得更好的体验。