京东到家安全运营平台建设实践

马金锁李骏达达集团技术

一、前言

安全运营是以资产为核心，以安全事件管理为关键流程，依托于安全运营平台，建立一套实时的资产风险模型，进行事件分析、风险分析、预警管理和应急响应处理的集中安全管理体系，达到保障企业系统、业务安全运行的目的。安全运营工作也是京东到家安全工作中重要的一部分工作，依据业务、设备日志进行常规网络攻击以及基于业务特征的攻击行为的检测、分析和溯源。

京东到家业务系统面对大量的恶意网络攻击，不同安全设备的告警信息存在出入且信息较为分散，容易误判、漏判而导致应急止损滞后等问题。通过建设安全运营平台（SOC），目标是实现不同业务系统以及安全设备日志数据的收集检测，并进行相互之间的联动分析，从多角度验证攻击告警信息，提高安全攻击事件的发现和应急效率，实现网络安全工作的闭环管理。本篇文章主要介绍京东到家安全运营平台（SOC）的建设落地实践。

二、面临的挑战

到家安全运营平台的建设，更多是需要结合到家自身的业务方向以及现有资源进行设计，对于可扩展性的要求会更高一些。以日志作为数据源，需要考虑能够获取到的数据有哪些，这些数据是否满足安全运营过程中的需求。同时到家现有设备资源是否满足数据的聚合联动。那么整体面临的问题挑战可以归类如下：

1、如何使数据源内容满足攻击链检测的需求；

2、如何让平台的安全检测能力满足业务要求；

3、如何使平台具有协同联动分析能力；

三、安全运营平台介绍

安全运营平台的数据源是业务日志，基于业务日志实现攻击行为的检测告警，平台需要满足千亿量级的数据分析能力。我们选用开源日志分析平台进行二次开发来实现安全运营平台建设。

3.1 开源日志分析平台选型

开源日志分析平台的选型，主要针对ELK ，Loki，Graylog 三款比较主流的日志分析平台进行对比分析。

平台

分析


ELK	ELK是一款开源工具组合，包括ElasticSearch，Logstash 和 Kibana等。支持采集多种来源的日志数据，分布式搜索实现快速检索，可视化UI界面
Loki	Loki易于操作，不支持对日志进行全文索引，使用与 Prometheus 相同的标签，适合储存 Kubernetes Pod 日志
Graylog	一体化部署方案，支持采集多种来源的日志数据，日志字段支持修改，支持TB级别的搜错查询，支持归档功能，相比ELK拥有更优秀的报警功能，python库支持

通过对三款平台的分析和对比，可以看出Loki节省存储空间，更适合于归档存储；ELK是一款成熟的日志分析组合，报警通知这块比较弱；Graylog支持采集多种来源的日志数据，相比ELK拥有更优秀的报警功能，因此更满足平台建设的需求。

3.2 安全运营平台设计

通过对开源日志分析平台的对比分析，以Graylog作为安全运营平台的基础进行二次开发实现对应的需求。到家安全运营平台可以分为四个模块，分别为数据来源模块、数据存储模块、检测分析模块以及可视化模块。

3.2.1数据来源模块

数据来源模块主要用来采集数据，目前安全运营平台数据源主要是日志数据，因此来源包括基础设施以及安全设备的日志。其中基础设施日志包括WEB访问日志、主机日志等；安全设备日志主要包括WAF告警日志、主机安全告警日志、防火墙告警日志等。

3.2.2数据存储模块

数据存储模块主要包括ElasticSearch和MongoDB两块。ElasticSearch存储数据来源模块收集的日志数据。MongoDB存储Graylog本身操作的一些行为记录日志。

3.2.3检测分析模块

检测分析模块也是平台的核心模块，负责从数据中获取运营人员需要的关键数据。主要包括规则引擎、分析引擎以及告警引擎三个模块。

规则引擎：依据设置的一系列安全检测规则匹配对应的目标数据。

分析引擎：负责对规则引擎识别后的数据做处理，进行二次分析存储等操作。

告警引擎：提供平台内异常信息的告警通报能力。

3.2.4可视化模块

可视化模块主要用来对检测分析模块识别到的所有异常场景数据进行展示。包括告警数据流、Dashboard以及威胁行为态势三块。告警数据流支持对所有告警数据以规定格式进行展示，为运营人员分析提供支撑。Dashboard提供各类数据报表，用来对所有告警日志数据进行可视化查看分析。威胁行为态势主要针对不同的日志数据定向的制定可视化数据分析界面。

四、安全运营平台建设

平台建设过程主要分为Graylog部署、日志数据接入、检测模型生成、告警数据的二次处理以及可视化搭建等操作行为。

4.1Graylog部署

Graylog作为整个安全运营平台的基础架构进行部署，部署采用基础部署架构进行部署。主要由Graylog服务、ElasticSearch以及MongoDB构成。

4.2日志数据接入

日志的接入分为两个方面，分别是基础设施的日志以及安全设备的日志。基础设施日志主要为WEB访问日志，利用Graylog的Agent可以实现日志的转发，将需要的日志转发到ElasticSearch进行存储。

安全设备的日志包括WEB应用防火墙、HIDS、网络防火墙等一系列安全产品的日志，需要针对不同安全设备提供的接口进行对应日志的获取。那么整体日志获取过来后需要对所有的日志进行格式化处理。

通过上述两方面的日志接入，对于一个完整的攻击行为的攻击阶段均可以识别，从数据源来说可以形成一个完整的攻击链，为安全溯源提供强有力的数据支撑。

4.3检测模型生成

检测模型由不同类型的安全攻击行为构成，同一类攻击行为的检测规则可以定义为一类检测模型。针对接入的海量日志数据，如何从中挖掘出有效的数据，主要利用Graylog的规则引擎去实现，不同类型的日志数据划分不同的数据流并利用对应的规则检测识别。可以满足平台针对业务安全的检测能力。在检测规则生成过程中，也是通过对日志中的url、请求头、请求体、响应状态码、响应头以及响应体多方面进行攻击行为的校验，降低告警的误报率。

规则生成过程中需要关注数据源，针对不同数据源之间的检测匹配规则是需要差异化的，不然会出现二次检测、误报以及漏报等问题。

WEB日志主要以NGINX访问日志为主，需要从中挖掘的数据类型可以分为两类，包括常规网络攻击数据以及恶意业务访问行为（恶意刷单等黑灰产）。同时针对网络攻击数据还需要对登录态和非登录态进行区分。登录态进行的攻击可以使分析人员第一时间确定攻击人员所使用的账号信息，并进行处置，同时，登录后的一些攻击行为对系统的影响也是较为重要的，所以针对登录态的告警必须第一时间进行处置和分析。那么非登录态的一些攻击行为可能更偏向于一些批量扫描行为。

安全设备日志包括云WAF以及本地安全设备日志。安全设备的检测规则主要是进行一个聚合联动分析作用。将对应的告警日志进行统一汇总转发至ElasticSearch并进行请求状态的聚合汇总，从中筛选出成功的告警信息进行展示，可以降低安全设备的误报率，排除已知的扫描行为，同时也可以和WEB日志中的告警进行联动分析。

4.4数据处理

日志利用规则引擎检测分析后进行告警，告警完成对于所有攻击日志数据由分析引擎进行二次打标处理存储。

打标存储后的数据会由告警引擎同步进行告警信息发送，通过企业微信进行及时消息的推送。安全运营人员在收到告警信息后可以第一时间进行分析研判，也是避免了消息触达延时导致的应急响应滞后。

4.5可视化展示

数据处理模块处理后的数据由可视化模块进行统一的展示，包括WEB日志的告警数据以及安全设备日志的告警数据。这块功能更多是对数据的提取聚合操作，通过可视化使得实时攻击和威胁更直观的展现。

平台可视化界面展示的每一条告警攻击事件，可以依据IP、设备指纹、时间在不同的数据流中检索并进行联动分析，以最短的时间确定出整个攻击事件的攻击链，实现攻击行为的溯源。

4.6平台检测流程

京东到家安全运营平台通过Graylog部署、数据接入、模型检测以及数据处理实现攻击行为的可视化告警管理。整个平台的检测逻辑具体如下图所示。

利用Graylog日志转发Agent将安全设备以及各类业务系统中不同源的日志数据转发至平台侧，并进行格式统一处理后存储于数据库中。平台核心检测引擎对所有数据日志进行不同攻击行为的检测匹配，对于检测到的攻击日志进行打标后再次统一存储于数据库中；分析引擎利用不同的标签对打标后日志进行威胁告警展示管理，同时形成告警工单，利用企业微信进行告警通知；所有处理后的数据支持不同规则的聚合分析，最终形成可视化视图。

五、成果及后期规划

5.1建设成果

到家安全运营平台通过对多源数据产生的信息进行收集、过滤、格式统一以及存储等处理，利用检测模型实现网络攻击行为检测、告警，辅助安全运营工程师对安全事件进行应急和溯源分析。基于平台的建设实现了以下安全能力。

1）威胁管理能力

平台汇聚所有存在告警的威胁信息，支持基于不同信息进行查看、分析验证。

2）事件关联分析能力

平台收集业务系统和各类安全设备所有告警信息，支持针对某一攻击事件的联动分析，实现攻击行为的溯源。

3）工单管理能力

平台支持针对所有告警事件以工单形式进行企业微信告警同步，同时支持所有告警工单内容的汇聚查看。

5.2后期规划

京东到家安全运营平台从数据接入、数据处理、分析以及可视化展示等方面来说已经实现了对应的安全需求能力。但从企业安全保障过程中攻防两端的对抗较量来说在之后的工作中还是需要不断的进行迭代优化，针对目前到家的安全运营平台来说，迭代规划分别包括两部分，第一是资产联动自动化识别接入平台；第二是通过平台自动化识别攻击链。

1）资产联动自动化识别接入平台

安全运营体系所运营的主体其实就是企业的各类网络资产，那么在整个运营过程中一些新的资产都是需要技术人员进行人工接入，因此下一步计划将资产管理平台和运营平台进行联动，一旦发现新增网络资产，安全运营平台通过脚本程序实现自动接入操作，这样可以防止因为运营人员未接入导致的资产遗漏等问题。

2）平台自动化识别攻击链

在一次成功的攻击过程中，攻击者通过互联网应用程序漏洞进入内网后会实施一系列横向渗透的操作，那么企业安全人员能够第一时间发现整个攻击流程，时刻掌握其攻击动向就可以第一时间阻断本次攻击，将损失降到最低。目前平台支持攻击链各阶段攻击行为的检测，由安全运营工程师分析形成攻击链。下一步计划平台利用自身产生的告警日志结合主机安全日志，利用时间、IP以及指纹信息自动化实现整个攻击链的检测和告警。

六、总结

安全运营体系的建设使得企业对自身的安全状况有了更清楚的认识，也是保障企业业务系统稳定运行的重要工作之一。一款高效的安全运营平台能够为安全运营工作提供必要的数据支撑和保障，京东到家安全运营平台在之后的安全运营工作中也是根据业务需要不断依据自身特点和资源情况进行优化迭代，目标是打造一套成熟的安全运营平台，支撑京东到家安全风险的闭环管理。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

企业信息化指导规范 ₂₀₀₉
第7章云计算基础架构 ₂₀₁₄
数字孪生应用与实践 ₂₀₂₁
数据驱动管理让数据成为生产力 ₂₀₂₁
AB Tests under Interference Induced by FeedbackLoops ₂₀₂₄
企业信息化战略规划交流与实践
汉得技术中台技术白皮书 ₂₀₂₀
夯实海量运营质量的三个运维实践经验

也许您喜欢