Notifications

Clear all

从免费的WEB应用防火墙hihttps谈机器学习之样本采集

Security Tools

Last Post by tai chi 4 years ago

1 Posts

1 Users

0 Likes

878 Views

RSS

tai chi

(@taichi)

Member

Joined: 4 years ago

Posts: 408

Topic starter 04/04/2020 8:59 pm

hihttps是一款免费的web应用防火墙，既支持传统的WAF的OWASP特征工程检查（如SQL注入、XSS、恶意漏洞扫描、密码暴力破解、CC、DDOS等），也支持机器采集样本无监督学习，自主对抗，重新定义web安全。今天笔者就从web安全的角度，介绍机器学习之样本采集。

一、究竟什么是web攻击？

网络安全专家通常认为：web恶意攻击很多是有其特殊的URL特征，如

恶意扫描 GET /hihttps?cat ../…/../etc/passwd

SQL注入 GET /hihttps?user=123' or 1='1

XSS攻击 GET /hihttps?user=<script>alert(1);</script>a

......这类攻击确实有非常典型的特征，传统的waf和规则就可以防御。

那么下面的URL呢？

GET /hihttps?user=ls123

GET /hihttps?user=%0Als

……准确说，这类网络安全专家也认为是正常的请求，或者说无法辨别是否恶意攻击。

问题就来了，像GET /hihttps?user=ls123就一定是正常的请求吗？不一定。

比如CVE-2019-11043高位漏洞：向Nginx + PHP-FPM的服务器 URL发送 %0a 时，可以执行任意远程命令，从而控制整个服务器。也就是说：GET /hihttps?user=%0Als在某些环境就是一条成功的攻击，并且执行了linux的ls命令；如果服务器没安装Nginx+PHP，也可以认为是无害的。

再进一步，如果网站上根本没有hihttps这个接口，那就是恶意扫描，一定要检测出来并阻断。但传统的方法肯定不行了，那么机器学习将是唯一的办法。

二、机器学习重新定义网络安全

和图形图像的机器学习相比，web安全采集样本的成本是最低的，因为只要把软件在服务器上运行即可采集，甚至读取web日志文件，就可以拿到大量的样本，而成本几乎是0。

但黑客攻击样本太稀缺了，根本无法拿完并且日新月异，从这个角度也可以说无监督或者半监督学习，才是未来web安全的发展方向。下面举例：

如果从web服务器上https:// www.hihttps.com /hihttps.html?id=123，采集到的样本参数大于99.9%都是“?id=数字”这种形态，那么可以认为下面的网址都视为攻击：

https://www.hihttps.com/hihttps.html?id=12 3' or 1='1

https:// www.hihttps.com /hihttps.html?id=<script>alert(1);</script>

https:// www.hihttps.com /hihttps.html?id=1234567890&t=123

https:// www.hihttps.com /hihttps.html?id=abc

后面两条网址，在传统的waf是不可能检测的，只有机器学习才能准确检测出攻击。所以机器学习的核心是：不是我服务器上的东西，都视为非法攻击，这样有可能阻止未知漏洞和未知攻击。这样，web安全的概念和传统的特征工程完全不一样了，机器学习重新定义了网络安全。

三、样本采集原则

1、足够的随机化，在不同的IP地址之间随机采集。

2、足够多的样本，保证99.99%的正确率，至少需要采集数万份的样本。

3、足够的时间，至少在不同的时间段采集3-7天的样本。

4、尽量是正常流量，样本没有被黑客攻击污染。

5、完整的数据，样本包括全部的HTTP 请求头和body。

所以从web日志里面来读取样本数据是有限的，最好用WAF实际部署方式来采集。对于SSL加密的样本采集通常用反向代理方式采集，可以参考hihttps源码 https://github.com/qq4108863

四、总结

1、现在的网络攻击都基于逻辑漏洞进行APT工具，就是高级持续威胁，传统的waf规则很难对付未知漏洞和未知攻击。

2、让机器向人一样学习，具有一定智能自动对抗APT攻击或许是唯一有效途径。但黑客技术本身就是人类最顶尖智力的较量，WEB安全仍然任重而道远，

3、幸好hihttps这类免费的应用防火墙在机器学习、自主对抗中开了很好一个头，未来web安全很可能是特征工程+机器学习共同完成，笔者将在下一篇文章中介绍怎么从样本中提取特征，自动生成对抗规则，未来WEB安全必然是AI的天下。

Quote

中国历史上最高水平的36首诗

36《登幽州台歌》·陈子昂前不见古人，后不见来者。念天地之悠悠，独怆然而涕下！陈子昂是唐诗开创时期在诗歌革新...

By ITPro , 2 months ago
RE: 网络通|免费内网穿透工具

机房现场运维用的 - frp远程连接windows桌面 June 20, 2023 YY.K Permali...

By tai chi , 10 months ago
Win10 Win11系统版本一键切换v6.5

Official website： OSSQ-Win10 Win11系统版本一键切换是一款系统版本转换工具...

By tai chi , 11 months ago
[Windows] 异地组网工具 Radmin_LAN

Radmin LAN是一款使用简单的免费软件产品，用于创建虚拟本地网络。该程序允许用户安全地连接位于防火墙后的...

By tai chi , 11 months ago
Aegisub视频加字幕工具 [Windows][MAC]

Aegisub 是一款自由、跨平台的开源字幕编辑软件。它能让您轻松且高效地完成时间轴的制作，并利用内置的各种实...

By tai chi , 11 months ago
ShotCut v23.05.07 视频剪辑编辑软件 [Windows][macOS][GNU/Linux]

ShotCut 是一款开源免费跨平台的视频剪辑软件，ShotCut支持数百种音频和视频格式以及编解码器。无需导...

By tai chi , 11 months ago
数据恢复软件合辑

另：首先感谢[@夜色随风]大哥射U，大家使用软件时最好提前百度使用方法，如果比较重要的数据还是建议大家用专业数...

By tai chi , 11 months ago
网络小说的拓荒史

一看日历，现在已经是2020年5月了。网络小说发展至今多少年了呢？大概是23年了，与网络小说同年龄的人现在都已...

By tai chi , 12 months ago

从免费的WEB应用防火墙hihttps谈机器学习之样本采集

一、 究竟什么是web攻击？

二、 机器学习重新定义网络安全

三、 样本采集原则

四、总结

Share this:

Like this:

一、究竟什么是web攻击？

二、机器学习重新定义网络安全

三、样本采集原则