个人感想。

也许是小马过河。

首先,我们要认清现实,这是大海捞针。

其次,在 正常/异常 的特征学习(不论是启发式规则,还是机器学习,还是拍脑袋),在某个阈值之后,特征越多,效果越容易把自己弄晕。

正常、异常的概率只是大概评级,不是最终风险判断。

N个数据特征统计用来把大部分正常的筛掉,大家都来评个分排个序。

N个风险检测规则用于发现各式各样的离群异常,报警。

以前的表现是好人,跟以后是不是干坏事,没有特别高的靠谱保证度。这个场景跟现实可能有所差别,不过所谓王莽谦恭未篡时。

坏蛋成群的,陌生人的,瞬间小流量的,历史没怎么通信过的,时段异常的,发的包有毛病的,等等ABCD长的不一样的,重点检测。当然也有一些天生无恶意的逗比。

单纯靠一条异常流量数据无法做深入判断,加上服务器上的效果影响、来源客户端的异常检测、与正常对比的区分度,部分可行。

越准的规则覆盖越小。结合特定场景做的规则可能非常简单,对恶意流量的发现/限制的策略可能更加有效。

出了事再去数据库select说我们log下来了这种不超过3次最好了,不然可以问问自己在干什么。

不要常常想着自己的系统模型会比坏人变的更快。



blog comments powered by Disqus

Published

22 September 2014

Tags