利用域名分析恶意软件,都存在一定缺陷。例如,基于沙盒研究无法跟踪在野情况;基于 Passive DNS 受限于数据视野;基于主机研究依赖于预先安装的软件;基于水坑研究错过了最开始的感染阶段。
RFC 7811 引入了 EDNS 客户端子网(ECS)的概念,支持递归解析服务器不在客户端附近时通过地理位置优化 DNS 响应。ECS 在从递归解析服务器发送到权威解析服务器的请求中会包含客户端 IP 地址的一部分,权威解析服务器能够根据客户端请求所属的地理位置进行回复。
工作准备
收集 2017 年 2 月 9 日到 2021 年 6 月 30 日间,权威解析服务器的 DNS 数据。数据包括:递归解析服务器 IP 地址、解析的域名、权威响应以及 ECS 查询客户端 IP 子网。
收集 2018 年 1 月到 2021 年 4 月间,在沙盒中执行可疑的 Windows 程序,所对应的 DNS 流量。并且获取样本相关的 VirusTotal 信息(仅取 17 个引擎),使用 AVClass2 提取最相关标签。
利用 CAIDA 提供的 Prefix-to-AS 数据集与 RIR 提供的 ASN-to-自治系统,为 IP 提供所属信息。另外,开源解决方案中 ASdb 提供的粒度太粗,最后还是选用商业数据集为 IP 标记行业。联合国统计司提供了国际标准行业分类(ISIC)代码与业务类型的映射关系,本文使用的也是如此。
数据详情
发现权威解析数据中出现的恶意域名,过滤掉 Tranco 中排名靠前的域名,过滤得到 12212 个有效二级域名(e2LD)。这些域名与 174112 个恶意软件有关,98.96% 的样本在 VirusTotal 上已有,已有样本的 99.97% 都被标记为恶意。
利用 VirusTotal 扩展了 70898 个样本,共计 245010 个样本。经过 AVClass2 的处理,有 81750 个样本被分配了 SINGLETON 标签丢弃,剩下的 161322 个(66.37%)样本归属于 202 个不同的恶意软件家族。
工作评估
C&C 服务器
分析了 6400 个域名,指向 151 个国家/地区的 399830 个 IP 地址。此前,Tajalizadehkhoob 和 Mezzour 都发现合法平台上部署 C&C 服务器的分布与合法平台的规模强相关,与其安全管理是否严格弱相关。