最近工作中在解析IP地址与网络关系的时候,用到了图数据库,这里记录一下学习过程。
1、概念
图数据库相对于普通的关系型数据库的概念有很大区别,普通的关系型数据库就是以表格行列模式的结构化数据进行存储,而图数据库则直接是一种抽象的图形及图形关系进行存储。即使是抽象的数据存储,但图数据库并没有想象的那么复杂,在对网络拓扑解析的应用中得心应手,很容易就解决了我的问题。
图数据库一共存在3种概念,分别是:节点、关系、属性。理解这三种概念后就基本把图数据库的理念给搞明白了。在最新的Neo4j图数据库版本中,还增加了标签的概念。
1.1 、节点
节点(Node)是图数据库中间的基本元素,表示一个实体记录,类似于关系型数据中的一条数据记录。一个节点中包含多个属性(property)和多个标签(label)。
1.2、 关系
节点与节点之间的连线称为关系,图数据库相对于关系型数据库就是可以直接将抽象的关系进行存储。关系包含开始节点和结束节点,两头不能为空。关系是存在方向的。在最新版本的数据库中,关系也可以添加属性,但在我使用过程中发现基本没有必要在关系上添加属性。
1.3、属性
节点和关系都可以拥有多个属性,属性是由键值对组成的。属性值可以是基本的数据类型,或者由基本数据类型(boolean、byte、short、int、long、float、double、char、string)组成的数组。
需要注意的是属性没有null的概念,如果一个属性不需要了,直接键值对就删除了,在使用cypher查询语句的时候可以使用IS NULL
判断属性是否为空。
2、 Cypher查询语句
关系型数据库中有SQL语言,图数据库中的查询语言就是Cypher。
Cypher是一种声明式的图数据库查询语言,能够对图数据库进行增删改查。在实际使用的过程中,除了Cypher针对图数据的一些特殊的语句,用起来跟SQL查询语句极为相似,在熟悉SQL查询语句的情况下,使用Cypher的难度较小。
节点语法
Cypher使用一对圆括号来表示节点,括号中间可以进行匿名查询和属性查询
1 | () // 匿名节点 |
关系语法
Cypher词啊用--
表示无方向的关系,有方向的关系为-->
或者<--
,同样在关系查询语句中也包含变量和属性的查询
1 | --> |
模式语法
将节点语法和关系语法组合在一起,就是一个模式。
1 | (foo:Node)-[:HAS_NODE]->(target:Node {title: 'test'}) |
2.1、增删改查
使用create创建节点
1 | CREATE (n:USer {name: "Test"}) |
使用create创建关系
1 | MATCH (n {name: 'a'}), (m {name: 'b'}) |
使用MERGE创建节点
使用MERGE创建节点的时候,类似于django orm中的get_or_create,如果能够查询出节点,则使用该节点,如果查询不出这个节点,则创建一个节点。
1 | MERGE (n: Node{name: 'a'}) |
MERGE创建关系也一样
1 | MATCH (a:Person {name: 'a'}), (b:Person{name:'b'}) |
更新数据
使用set更新数据
1 | MATCH (n: Node{name:'a'}) |
删除数据
使用delete可以删除数据
1 | MATCH (n) DELETE n; |
在节点存在关系的时候,无法直接删除,需要增加DETACH
1 | MATCH (n) DETACH DELETE n; |
REMOVE移除数据
使用REMOVE可以移除一个数据,比如移除一个节点移除一个属性
1 | MATCH (n: {name: 'b'}) |
条件过滤查询
1 | MATCH (n:Node) |
联合查询
1 | MATCH (a)-[:KNOWNS]->(b) |
CASE子句
1 | MATCH (n:Node) RETURN |
3、实践
在实际编程过程中的时候,需要用到其他语言相关的库来连接图数据库。在本篇文章中,使用了py2neo
库。
模拟拓扑
在进行解析的时候,我们假定了一个拓扑如下,存在一个多层网络,通过防火墙的端口映射,或者NAT将内部的端口或者IP给映射到公网,我们需要通过图数据库来解析这个拓扑。
图上的拓扑还是较为抽象,我们在解析的时候,需要将拓扑的映射关系先人工换算成表格的形式,方便我们做数据解析。同时也可以用关系型数据库将解析的映射关系给存起来,后期可以使用django的信号或者其他方式将关系型数据库的映射关系和图数据库中间存储的拓扑进行同步。
解析后的数据如下:
源地址 | 资产编号 | 源端口 | 目的地址 | 目的端口 | 备注 |
---|---|---|---|---|---|
192.168.0.4 | LB001 | 8080 | 10.0.1.2 | 80 | 负载均衡 |
192.168.0.5 | LB002 | 8080 | 10.0.1.2 | 80 | 负载均衡 |
192.168.0.6 | LB003 | 8080 | 10.0.1.2 | 80 | 负载均衡 |
10.0.1.2 | 80 | 172.168.0.33 | 80 | ||
10.0.1.4 | Server001 | 445 | 172.168.0.33 | 445 | |
10.0.1.5 | Server002 | 172.168.0.35 | |||
10.0.1.4 | Server001 | 3389 | 172.168.0.36 | 3389 | |
172.168.0.33 | 80 | 211.211.211.4 | 80 | ||
172.168.1.5 | Inter001 | 211.211.211.5 | |||
172.168.1.6 | Inter002 | 3330 | 211.211.211.6 | 3330 | |
172.168.0.35 | 5678 | 211.211.211.35 | 5678 | ||
10.0.2.3 | DMZ001 | 25 | 211.211.211.6 | 25 | |
10.0.2.4 | DMZ002 | 80 | 211.211.211.6 | 80 | |
10.0.2.5 | DMZ003 | 4444 | 211.211.211.7 | 5555 | |
10.0.2.3 | DMZ001 | 25 | 172.168.2.6 | 25 | |
10.0.2.4 | DMZ002 | 80 | 172.168.2.6 | 80 | |
10.0.2.5 | DMZ003 | 4444 | 172.168.2.7 | 5555 |
py2neo的model
py2neo支持ogm创建model数据类型,来定义节点信息,在这个例子中,我们可以定义两种节点类型,一个是IP节点一个是Port节点,具体的代码如下:
1 | from py2neo.ogm import GraphObject, Property, RelatedTo, RelatedFrom, RelatedObjects, Related, Label |
IP节点包含3个属性和一个关系,Port节点包含一个属性和两个关系,RelateTo表示指向对应的节点。
解析表格使用pandas一行一行的进行读取,读取逻辑如下:
1、判断IP节点是否存在,不存在则新建,存在则获取
2、判断IP节点对应的端口节点是否存在,不存在则新建,存在则获取,并关联上IP节点
3、如果该行的port不为空,则连接两个port,否则连接两个ip
最后的代码如下:
1 | import pandas as pd |
最后解析出来的图数据如下所示,后续就能够按照该数据进行查询和分析数据了。后续如何在前端页面展示图数据后面空了再写文章进行讲解。