机器学习及攻击检测.pptx
;
2;
;
;
;
黑名单匹配开源API接口调用
;;
问其是如何分辨这篇文章的主题是“世界杯”还是“娱乐”二分类问题
首先,如果小学生A家里没网没电视没报纸,那他肯定分辨不出来没有样本
小学生A家里新装了宽带,但是A骨骼惊奇,将网上的世界杯和娱乐新
闻全部转成了汉语拼音,然后得到结论,abafade几个拼音出现多的
就是世界杯特征提取有问题;
经过老师的指点,A重新改了特征(分词取汉语关键词出现频率),且大脑总结了一套算法,先看是否有一次“足球”,如果有再看有没有超
过2次“梅西”,如果有就基本95%确定是世界杯新闻了训练并使用了“决策树”机器学;;
,ngram=2,按字符抽取
得到[ct,tr,ri,ip]
计算ct的词频TF
TF=ct在[ct,tr,ri,ip]出现的次数1/数组长度4=0.25
计算ct的逆文档词频IDF
IDF=log(训练语句总数/(含ct的语句个数+1))=log(10000/11);
Precision:0.933
Recall:0.900F1:0.916
xgboost
Precision:0.973
Recall:0.965F1:0.969
;
说一下为什么3.5%的漏报率可以接受;;
/;
;
;
;
;
例如一条检测sql注入的正则语句如下:
Stringinj_str=
|and|exec|insert|select|delete|update|co
unt|*|%|chr|mid|master|truncate|char|decl
are|;|or|-|+|,;
新买的selected衬衫脏了!
;
pattern:[^\w\s\?\此处保密\!\@\(\\~]{1,}
规则难以维护,自己写的正则自己都读不懂
;
队列积压严重,根本消费不完,昨天的攻击今天还没检测
;
;
;;
写脚本ES捞,手工洗,去重,日志尽量多样化
针对样本污染问题,使用正则关键字从白样本里洗掉黑色数据
;
/TrainBooking/Search.aspx?from=shanghaito=beijingda
y=-09-05
按args取训练素材,还方便使用网上直接搜集来的POC,因为不用
考虑定制化
过拟??
;
;
02图片上传,加密数据的怎么办?
正则检测不了的,机器学习也不能强求多层防御,用其他方式来解决
;
;
04误报了怎么办
误报的影响不大,直接交给正则,不同于WAF的使用场景使用HMM做异常检测
;
世界杯开始前,C罗状态好的概率为90%
......
C罗状态好,葡萄牙赢球概率为90%
......
C罗这一场状态好,下一场状态好的概率为
85%
....
问葡萄牙世界杯开始3连跪的概率是多少;
某参数正常的张这样,问题:来一个请求,判断是否是异常的
ark_bus_vivo|12308
ark_bus_xiaomi|12308
ark_android_jpskb|TY首先做泛型:
ark_bus_hicloud|ky12308字母-ord(A)数字-ord(N)中文-ord(C)其他-
取其ASCII码;
;
样本收集最好做到分散:从不同的源ip收集,避免单个ip贡献过多样本,恶意ip库里面的数据坚决删除
监测模型是否待更新?或者干脆定期更新
;
THANKS