文档详情

机器学习及攻击检测.pptx

发布:2025-05-14约1.97千字共37页下载文档
文本预览下载声明

;

2;

;

;

;

黑名单匹配开源API接口调用

;;

问其是如何分辨这篇文章的主题是“世界杯”还是“娱乐”二分类问题

首先,如果小学生A家里没网没电视没报纸,那他肯定分辨不出来没有样本

小学生A家里新装了宽带,但是A骨骼惊奇,将网上的世界杯和娱乐新

闻全部转成了汉语拼音,然后得到结论,abafade几个拼音出现多的

就是世界杯特征提取有问题;

经过老师的指点,A重新改了特征(分词取汉语关键词出现频率),且大脑总结了一套算法,先看是否有一次“足球”,如果有再看有没有超

过2次“梅西”,如果有就基本95%确定是世界杯新闻了训练并使用了“决策树”机器学;;

,ngram=2,按字符抽取

得到[ct,tr,ri,ip]

计算ct的词频TF

TF=ct在[ct,tr,ri,ip]出现的次数1/数组长度4=0.25

计算ct的逆文档词频IDF

IDF=log(训练语句总数/(含ct的语句个数+1))=log(10000/11);

Precision:0.933

Recall:0.900F1:0.916

xgboost

Precision:0.973

Recall:0.965F1:0.969

;

说一下为什么3.5%的漏报率可以接受;;

/;

;

;

;

;

例如一条检测sql注入的正则语句如下:

Stringinj_str=

|and|exec|insert|select|delete|update|co

unt|*|%|chr|mid|master|truncate|char|decl

are|;|or|-|+|,;

新买的selected衬衫脏了!

;

pattern:[^\w\s\?\此处保密\!\@\(\\~]{1,}

规则难以维护,自己写的正则自己都读不懂

;

队列积压严重,根本消费不完,昨天的攻击今天还没检测

;

;

;;

写脚本ES捞,手工洗,去重,日志尽量多样化

针对样本污染问题,使用正则关键字从白样本里洗掉黑色数据

;

/TrainBooking/Search.aspx?from=shanghaito=beijingda

y=-09-05

按args取训练素材,还方便使用网上直接搜集来的POC,因为不用

考虑定制化

过拟??

;

;

02图片上传,加密数据的怎么办?

正则检测不了的,机器学习也不能强求多层防御,用其他方式来解决

;

;

04误报了怎么办

误报的影响不大,直接交给正则,不同于WAF的使用场景使用HMM做异常检测

;

世界杯开始前,C罗状态好的概率为90%

......

C罗状态好,葡萄牙赢球概率为90%

......

C罗这一场状态好,下一场状态好的概率为

85%

....

问葡萄牙世界杯开始3连跪的概率是多少;

某参数正常的张这样,问题:来一个请求,判断是否是异常的

ark_bus_vivo|12308

ark_bus_xiaomi|12308

ark_android_jpskb|TY首先做泛型:

ark_bus_hicloud|ky12308字母-ord(A)数字-ord(N)中文-ord(C)其他-

取其ASCII码;

;

样本收集最好做到分散:从不同的源ip收集,避免单个ip贡献过多样本,恶意ip库里面的数据坚决删除

监测模型是否待更新?或者干脆定期更新

;

THANKS

显示全部
相似文档