网络空间是由一系列相互联系、相互依存的信息系统基础设施所组成的网络,包括互联网、电信网、计算机系统、嵌入式处理器和控制器、数字化设备及其承载的应用、服务和数据等。尽管当前对网络空间定义的表述各不相同,但一般强调网络空间的物质属性、社会属性及网络空间中的各类活动。 作为一种新的空间形式,网络空间与现实地理空间具有显著区别。 网络空间具有虚拟性、匿名性和互动性,信息的传播不受时空距离和国家边界的限制,给网络空间行为的认知和管控带来巨大困难。同时,网络空间与地理空间又存在着密切的联系,地理空间是网络空间的客观载体,网络基础设施的空间分布具有显著的区域差异,网络空间中的行为主体及其行为具有明显的地域特征,并且与现实空间具有密切的关联性和互动性,使得从地理学视角将网络空间作为一种地理现象进行研究成为可能。
(资料图片仅供参考)
地图是地理学发展起来用以认知现实空间的有效工具,对于网络空间,同样需要抽象、符号化和数值化的载体作为支撑。 近年来,网络地图、网络空间测绘、网络空间地理学等概念相继出现,表明通过绘制网络空间地图可视化网络空间的结构,表达网络空间与地理空间的联系,实现对网络空间的认知,是社会发展的应用需求,同时也是多学科研究的重要内容。本文梳理网络空间地理图谱的概念与内涵,介绍网络空间地理图谱构建的方法与关键技术,探讨其应用领域与应用前景。
1 ► 网络空间地理图谱的概念与内涵
01 地图与地理空间认知
地图是以地理信息为媒介对客观世界的抽象。现代地理学认为,地图是用特定的数学规则,并结合符号制图语言,在平面上按一定比例绘制地球上的自然要素和人文要素所得到的结果。 地图表达了各种社会和地理现象的相互联系、数量特征和质量特征、空间分布及其随着时间的发展演变。
行为地理学认为,人们认知空间的过程,就是在人脑中形成对地理环境及其演变意识的过程。心像地图(mental map,也称为认知地图、心理图谱)是人们通过视觉、听觉等感官获取外界环境信息,并形成关于认知空间、客观环境、实体、现象的抽象,是空间环境信息在大脑中的映射。地图是人类对地面事物认识后进行概括的抽象模型,与心像地图不同的是,地图通过严格的数学定义、符号体系和表达手段,形成了对现实世界的标准化的图形化概括。20世纪80年代以来,地理学采用信息技术对地理空间要素数据进行获取、分析、管理与可视化表达,核心在于表达地理空间要素及人地关系的空间分异性(格局)和时序分异性(演变)。
以地图为基础载体,可以将现实世界的多种要素进行定位、定量和定性,形成一个个相互联系的图层。 在此基础上,基于空间位置、属性信息及空间关系,可以实现对地理现象的多维度、多层次空间分析。由于空间分析是建立在对地图图层数据操作上的,是对空间分析过程及其数据的一种图形化、可视化的表示,便于分析人员在数据可视化(地图图层)的基础上,实现分析过程的可视化,并将最终的分析结果以图层的形式进行输出。因此,地图是描述现实世界、表达地理知识以及进行空间认知和分析的重要工具。
02 从网络地图到网络空间地理图谱
1、网络地图与网络空间认知
知识图谱作为计算机领域中的一个重要概念,是一种揭示概念及其关系的知识表示方式。 各种概念表示为节点,概念之间的关系表示为连接,形成基于图结构的知识网络。知识图谱能够充分发挥其知识整合的优势,将零散分布的多源异构数据通过专门设计的框架组织起来,为数据分析和知识挖掘提供支持。目前,知识图谱已被广泛应用于不同的行业场景,包括智能推荐、智能问答和数据挖掘等领域,但是网络安全知识图谱的研究尚处于起步阶段。
在地理学中,地学信息图谱和地学知识图谱是与知识图谱相关的概念。 地学信息图谱是凭借地图作为其载体,利用遥感(remote sensing,RS)、多维图形图表、地理信息系统(geographic information system,GIS)等技术表达、分析和理解地理要素和现象时空规律的方法。地理知识图谱则是根据不同地理概念之间的逻辑关系,将地理知识存储为图结构的过程。计算机科学中“知识图谱”侧重表达概念之间具有的关联信息,地理学中“地学信息图谱”侧重以图解形式表达地理机理,两者在概念上存在明显的差异。
地图在有限的空间表达庞大的真实世界,地图学是描绘现实世界的学科,在网络时代面临巨大的挑战。大部分的制图思路依然可以用在网络空间,但网络空间具有其独特性。地图学是将不规则的三维球体投影到二维平面,其核心要素包括方向、距离、面积、比例尺。传统地图建立在欧式几何上。20世纪30年代,拓扑学的出现产生了拓扑制图(topological mapping),开始重视节点间的关联关系。通信技术以及互联网的产生和发展降低了距离的影响,关系在认知网络结构时变得尤为重要。这一转变,导致了网络地图与传统地图的诸多差别。
网络空间相比于现实空间更加抽象和复杂,因此网络空间地图的时空关系和制图规则需要综合网络空间要素的特点和人类视觉思维进行重构。 国内外研究人员从网络空间地图的概念、核心要素、表达模型和可视化方法等角度开展了一系列研究,如网络空间和信息社会的各类地图和空间化问题,表达网络各类要素和信息的符号系统,网络空间表达的可视化理论,网络空间地图模型体系、符号体系和多尺度表达方式等。然而,当前研究局限于网络空间的部分层面,对多维度、多层次网络空间要素进行高效管理与综合表达的能力不足,无法真实全面地反映网络空间要素的特点和规律。
2、网络空间地理图谱的概念与发展
空间概念是人类在长期的客观实践中,从空间的诸多特性中提炼特有属性而形成的。 地理学在描述“空间”概念时,经常将“空间”与具体区域结合,把抽象的概念具象到特定的地理位置和特定范围。纵观近代哲学历史,在关于空间的认知方面,主要有3种观点,任何一种空间概念都在尝试统一这3种空间经验,它们分别是“属性论”“关系论”和“实体论”。网络空间诞生之后,地理学家的使命从认知现实空间拓展到探索网络空间以及网络空间与现实空间的耦合与交互,特别是诸多跨空间的过程与现象的描述与分析。
通过继承和发展地学信息图谱、知识图谱、地学知识图谱,本研究综合计算机领域和地理学中“图谱”的概念,从网络空间要素和知识可视化表达的角度出发,提出网络空间地理图谱的概念:网络空间地理图谱以地图为载体,以知识图谱的形式挖掘网络空间关系,通过网络空间—地理空间映射,将网络空间知识图谱映射至地理空间,实现网络空间要素和关系可视化,耦合地理环境演化特征,实现基于图论的知识表达。网络空间地理图谱是网络空间知识域的映射地图,综合反映网络—地理空间对象及不同对象之间的相互关系。绘制网络空间地理图谱,可以将网络空间与现实空间关联起来,是实现网络空间认知、维护网络安全的必要途径。
2 ► 网络空间地理图谱构建的方法与技术
网络空间地理图谱构建是以网络空间各要素的观测数据为基础,建立具有各类要素基本特征以及各要素间关联关系的知识化地图序列的过程。其构建过程主要包括网络空间地理要素的信息获取、网络空间关系的识别与空间化以及网络空间地理图谱的构建(图1)。
图1 网络空间地理图谱的构建流程
01 网络空间信息抽取与要素上图
网络空间要素信息获取是通过多种技术手段对网络空间多尺度、多层次的要素、行为和关系进行感知的过程,涉及海量多源异构数据的采集与融合,其中地理环境要素和网络环境要素的信息获取是绘制网络空间地理图谱的基础。
地理环境是人类生存和社会发展的基础,同时也是网络空间要素所依附的客观物质载体,用于支撑网络空间运行发展的信息基础设施和网络空间的行为主体及其活动都无法脱离地理环境而单独存在。地理环境要素信息的获取可以采用传统的地理测绘、卫星遥感、三维倾斜摄影等手段,对于关键地区和重点单位,可以采用三维GIS技术构建虚拟地理环境,真实模拟和还原网络空间要素的客观环境。地理环境要素在统一的时空表达框架下,融合关联社会经济、政治、文化要素,为网络空间地理图谱构建提供环境本底信息,可用于对网络空间现象和行为进行模拟分析和预测。
网络环境要素信息的获取是通过软件和硬件相结合的方式来生产和采集各类网络空间要素数据和网络安全数据的过程。根据存储数据的方式上的差异,可以将网络环境要素数据划分为非结构化数据和结构化数据;根据应用数据的场景上的差异,可将其分为动态数据和静态数据;根据采集数据的方式上的差异,可将其分为主动采集数据和被动采集数据。在实际业务中,可根据具体需求获取不同类型和来源的数据,如在网络安全态势感知中,更加关注网络资产、攻击、漏洞、流量等方面的数据。网络环境要素的获取可以通过网络空间测绘、流量监测、IP定位、网络爬虫以及从公开来源获取。
02 网络空间关系识别与空间化
网络空间地理图谱中涉及的关系包括地理空间要素关系、网络空间要素关系以及地理空间—网络空间映射关系,构建网络空间地理图谱,应对各类关系进行识别与表达。
1、地理空间要素关系
在地理空间中,地理要素往往都不是孤立存在的,要素之间互相联系的特性就是关系。由于空间性质和特征是地理要素所特有的,其关系的主要类型包括:空间关系、概念关系及时间关系。在网络空间地理图谱构建中,更多关注地理要素之间的空间关系。空间关系一般采用数学或逻辑方法进行描述,如交互、Voronoi图和交叉等,为GIS空间查询和空间分析提供了形式化工具。不同类型的空间关系所采用的描述方法通常有所区别,如采用欧氏距离、Voronoi图来描述距离关系;采用扩展模型、九交模型和四交模型来描述拓扑关系;采用矩阵法、投影法和锥形法描述方向关系。地理本体具备较强的知识表达和推理能力,更适用于空间关系知识表达和空间推理,可以将空间关系进一步划分为相似关系、距离关系、方位关系和拓扑关系,并进行形式化表达。
2、网络空间要素关系
网络空间的关系主要通过拓扑图表示,拓扑性质是在网络中独立于边的具体形态和节点的位置就能表达的性质,是几何图形或空间在连续改变形状后还能保持不变的一些性质,网络的拓扑结构则是相对应形成的结构。网络拓扑结构普遍存在于自然和社会环境,如互联网、社交网络、交通网、食物链网络等。在网络空间中,网络拓扑结构的构建主要用于模拟和生成接近真实网络的网络拓扑结构,从而反映网络空间要素之间的关系,构建技术已较为成熟。
互联网发展之初,出现了一种随机图生成器,由Waxman提出,可以将ARPANET网络很好地再现出来,但它只能反映小型网络近似的拓扑性质。20世纪90年代中期,由于发现互联网具有层次结构,而随机图生成器不能反映这种层次结构,层次拓扑产生器Tiers和Transit-Stub成为互联网拓扑建模的主流方式。随着增长和偏好连接机制的无标度模型以及互联网连接度重复幂律分布特征的提出,基于连接度的互联网拓扑建模应运而生,同时涌现出了Inet、AB、BRITE等产生器,可以很好地反映出网络的拓扑特征。综上,网络空间拓扑结构的构建具有成熟的方法与工具,可根据不同的关注点采用不同的方法构建网络空间拓扑。
3、网络空间与现实空间的映射关系
由于同一实体在不同空间的表现形式不同,网络空间与现实空间的匹配与映射主要解决不同空间的同一实体的甄别问题。实体匹配的方法包括基于位置的匹配方法(空间位置相同)、基于拓扑结构的匹配方法(网络拓扑结构相近)和基于内容的匹配方法(信息内容相似)。通过实体辨识与匹配,建立起多个空间之间的联系,实现对同一实体的全面认知。
网络空间与现实空间的映射关系包括探测、映射和绘制3个步骤(图2)。探测即全面准确地获取网络空间实体资源和虚拟资源及其属性的过程,是网络资源映射的基础。映射即将探测到的网络实体映射至现实的地理空间和社会空间,主要涉及网络实体定位技术、目标网络结构分析技术、地址挖掘与采集技术等。绘制是基于探测和分析结果将数量巨大、多源异构的网络空间要素及其关联关系投影到一个低维的可视化空间,绘制分层次、可变粒度的网络空间地图,实现网络空间与现实空间关系的映射。
图2 网络空间—现实空间关系构建流程
03 网络空间地理图谱构建与更新
网络空间地理图谱的构建是在网络空间要素信息获取和网络空间关系识别与表达的基础之上,结合知识图谱技术将各类网络空间要素、关系、事件进行关联融合和知识表示的过程,主要包括本体构建、信息抽取、知识融合和知识推理等步骤。
1、本体构建
本体是网络空间地理图谱构建的核心,它对网络空间地理图谱涉及的概念和概念之间的关系进行分析和提取,形成结构良好的概念层次,并以本体语义关系的形式表达出来,作为构建网络空间地理图谱实体和关系的结构框架。
2、信息抽取
信息抽取主要是从多源异构的网络空间数据中抽取实体(实体和虚拟资产、漏洞、行为主体、位置等)、属性(操作系统、软硬件版本等)及其关系(语义关系、空间关系、拓扑关系等),将抽取过程中得到的实体进行对齐和链接,并通过对抽取得到实体和关系进行评估校验后构建知识图谱。对于网络空间要素信息的抽取,传统的知识抽取方法一般分为3类,即基于规则、基于统计机器学习和基于深度学习的抽取方法。
3、知识融合
知识融合是在同一个框架下,将多源异构的数据进行消歧、加工、整合等操作,以达到融合信息、数据以及专家知识等多个方面的目的。网络空间地理图谱的知识融合的核心在于映射的生成,可以分为本体的融合和数据的融合。其中,本体的融合可以通过融合外部知识(如现有威胁情报库、漏洞库、病毒库等),实现对网络空间地理图谱的动态更新。数据融合中的实体对齐是多源知识融合的重要方面,旨在消除实体指向不一致性与冲突问题。
4、知识推理
知识推理将初步构建知识图谱映射到地理环境层,耦合地理环境信息,借助知识推理进行分析,以挖掘新的实体或者隐含关系,形成一张多维度、多层次的,实体与实体、实体与事件构成的关系网络,即网络空间地理图谱。基于规则的推理、基于分布式表示的推理和基于神经网络的推理是几种常用的知识推理方法。
3 ► 网络空间地理图谱的应用
网络空间地理图谱结合了知识图谱丰富的语义知识和GIS强大的空间分析能力,是认知网络空间的有效手段之一,也是网络空间资源管理和网络安全防控的信息底座。网络空间地理图谱的应用方向十分广泛,主要包括网络空间资源的智慧管理、网络空间行为的智能认知、网络空间事件的综合分析。
01 网络空间资源的智慧管理
相对地理空间要素来说,网络空间要素更为抽象和复杂,因而网络空间要素的数字化描述以及空间数据的组织逐渐成为网络空间资源管理的核心问题。网络空间资源的分布具有明显的空间特征,涉及到的数据与地理位置关系密切,要求在对其进行管理时要考虑资源的空间分布及相互联系。根据网络空间资源管理的要求以及地理学的学科特点,使得基于网络空间地理图谱的网络资源管理成为可能。
1、网络资源可视化管理
网络空间地理图谱具有将各类资源置于空间中对其进行直观化、可视化管理和综合分析的能力。依据要素自身所具备的空间特征等相关信息,GIS能够将网络空间要素抽象为点、线、面和多维要素,将它们绘制在地图上,并将要素的属性信息和空间信息记录到地理数据库中,从而全面掌握网络资源的空间分布,实现空间位置、属性信息和拓扑关系的一体化管理。同时,将图数据库和GIS技术用于网络空间资源管理中,可以利用其强大的图形管理与图形显示功能,借助数字地图和专题图等相关载体,实现对网络资源的可视化管理。
2、网络资源实时更新与动态查询
网络资源复杂多变,传统的网络资源管理多以人工管理为主,很难反映出资源的空间位置信息,而且时效性较差。图数据库通过存储与分析边和节点组成的结构,能够直观地表达网络空间要素、关系和事件,可以有效解决复杂关联关系深层检索时遇到的性能问题。利用图数据库中的图形查询功能和GIS的空间信息查询功能,网络空间地理图谱可以直观表达网络逻辑链路和实际通信载体,全面掌握网络资产的具体位置和实时状态,为管理人员提供准确快速的信息查询和分析功能,为网络规划管理提供真实有效的辅助决策信息。
3、网络空间资源合理配置
网络资源数量庞大,但资源闲置浪费严重。结合图数据库和GIS网络分析方法,网络空间地理图集可以有效解决网络资源的优化配置问题。该方法可以优化多个网络资源服务中心,筛选出布局中心的最佳位置,从而在不同区域分配资源,提高网络资源利用率。同时,图数据库和GIS网络分析方法也可以通过计算不同区域之间的最优路径来解决网络资源调度问题。
02 网络空间行为的智能认知
网络空间行为认知是在网络空间地理学和网络空间地理图谱基础理论的支撑下,以地理环境、网络环境、行为主体等多维数据为基础,采用地理大数据挖掘、深度学习、知识图谱等技术,对网络空间中的行为主体开展行为建模,分析网络空间中个体和群体的行为模式,形成网络安全行为画像。
1、网络安全行为建模
网络安全行为建模是根据用户的历史行为、网络结构或兴趣相似性来分析群体的行为特征。依据协调性群体行为分析的基本理论,分析攻击用户的群体行为,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体进行后续分析,通过分析网络结构,分析攻击是否为协调性行为或有组织形式。通过网络安全群体行为建模,网络安全人员可以打破数据孤岛并真实地了解网络用户,定位攻击者群体,实现精准、高效地预防和打击网络攻击。
2、网络安全行为画像
网络安全行为画像是指通过收集个人以及群组的众多信息,自动分析产生出一些特征和关联。在对网络攻击检测和防御中,对攻击者进行画像是了解攻击意图、对攻击进行预测的有效方法。通过对大量数据的收集和分析,识别网络攻击活动,达到对整个网络安全状况的宏观掌握,进而分析推测攻击者意图并有效地对其进行响应,以便尽可能地减少由于此类威胁造成的损失。结合网络空间地理图谱,可以为网络空间安全提供深度感知,建立基于画像的攻击分类和交互导航式攻击事件分析。
03 网络空间事件的综合分析
1、网络空间事件的时空分析
传统的网络安全事件分析一般采用入侵检测系统(intrusion detection system,IDS)、防病毒软件、防火墙、入侵防御系统(intrusion prevention system,IPS)等技术检测网络攻击和网络异常,主要关注网络流量、日志记录、IP等网络环境要素。然而,网络空间的事件和现象具有空间异质性,并且这种异质性根植于深刻的社会、政治、经济和文化背景。网络空间行为的产生,不仅受到行为主体自身属性特征(个体和社会属性、行为习惯、心理动机)的影响,同时也受到其所处的现实环境(自然、人文条件)和网络环境(基础设施、社交网络)的影响。传统的网络安全事件分析缺乏现实空间的维度,已逐渐无法满足当前网络安全的复杂需求。网络空间地理图谱为多源数据的集成分析提供了统一的框架基础,可以映射现实空间与网络空间,将网络空间事件的分布与自然地理、社会经济等要素的空间异质性关联起来,从而实现跨空间、跨系统耦合,综合分析网络安全事件的状态和发展趋势(图3)。
图3 网络空间—现实空间的跨空间分析方法
网络空间事件的时空分析包括网络空间事件的时空分布特征及其主要驱动因素分析。网络空间事件的时空分布特征主要采用地理学中的空间分析方法,包括核密度分析、空间自相关分析、时空热点分析等手段,分析网络空间事件的空间异质性、空间自相关性和空间尺度效应,以及网络空间事件随时间和空间的演变规律。网络空间事件的驱动因素分析综合考虑影响网络空间行为的地理环境、社会环境、网络环境和个体特征,分析不同要素对于网络攻击行为的影响路径,并识别各类要素对网络攻击行为的作用方式、作用程度,通过比较不同要素的相对贡献,识别网络空间行为的主要驱动因素。
2、基于人工智能的网络空间事件分析
随着网络空间环境越来越复杂,网络攻击手段日新月异,数据维度不断增加,传统基于安全问题分析和固定规则的研究方法变得效率低下,需要投入大量的人力和物力资源识别威胁。机器学习技术的广泛应用为解决网络安全问题提供了可能性,在学术界和工业界都得到了快速发展,在垃圾邮件识别、网络安全防御、恶意软件识别、入侵检测等安全领域得到了广泛应用。然而,现有的技术解决方案均不能完全满足网络安全的应用需求,机器学习在模型泛化能力、检测准确度、实时性等方面依然存在许多需要解决的难题。
基于深度学习的技术相较于传统的机器学习方法,拥有更好的泛化能力,在恶意软件监测和网络入侵检测这2个领域,已表现出显著优于基于规则的经典机器学习算法的特性。不进行任何人为干涉时,如果监测到新出现的恶意软件,深度学习可以进行实时防范,同时,它的误报警率也能保持在较低水平,这一点非常有利于保护基础架构、数据、端点以及移动设备。网络空间地理图谱采用知识图谱表征实体之间结构化的关系,为网络空间安全行为的智能认知领域提供了新的解决思路。
4 ► 结论
网络空间的出现为社会经济的繁荣发展创造了新的机遇,推动了生产力的大幅提升,并给人类日常生活和交流提供了极大的便利。与此同时,网络空间的飞速发展也带来了严峻的安全风险和挑战,近年来,全球范围内的网络攻击、网络犯罪、网络恐怖主义等各种各样的网络安全问题层出不穷,对全球经济发展、国家安全、社会稳定以及个人的合法权益造成了严重威胁。随着网络结构日益复杂、攻击技术手段日新月异,网络攻击行为越来越呈现出更具针对性、复杂化、多样化的特点,攻击规模和效率都在快速增长,仅仅依赖单学科的力量已难以应对新形势下的网络安全威胁,迫切需要综合多学科的理论和方法,创新网络空间行为认知的技术方法。
本研究在梳理网络空间地图现有理论和技术的基础上,提出了网络空间地理图谱的概念与内涵。 网络空间地理图谱从地理学的综合性视角出发,通过网络空间—地理空间映射,将网络空间知识图谱映射至地理空间,实现网络空间要素和关系可视化,综合反映网络—地理空间对象及不同对象之间的相互关系。在网络空间地理图谱概念的基础上,介绍了网络空间地理图谱构建的方法与关键技术,并从网络空间资源管理、网络空间行为认知和网络空间事件综合分析3个方面探讨了其前景和应用领域,可以为绘制网络空间地理图谱提供一个可扩展的基础框架,从而清晰完整地表达网络空间结构,实现网络空间行为智能认知,提升维护网络空间安全的能力和水平。
原文发表于《科技导报》2023年第13期,欢迎订阅查看。
关键词: