专利 一种基于图神经网络的图像生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211503117.2 (22)申请日 2022.11.29 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人陈培　张杨康　李泽健　孙凌云　 (74)专利代理机构杭州天勤知识产权代理有限公司 33224 专利代理师胡红娟 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称一种基于图神经网络的图像生成方法 (57)摘要本发明公开了一种基于图神经网络的图像生成方法，包括通过图像特征节点集合和对应的场景拓扑图构建超图，在超图上构建一个图神经网络来同时学习场景拓扑图中的语义特征以及图像的潜在特征；通过四种在图神经网络上的消息传递方式来模拟真实场景中的物体交互，将基于全局消息传递方式和局部消息传递方式更新得到的图像特征集合依次输入全连接层和归一化指数函数得到生成图像编码；基于训练样本集对训练网络模型进行训练，通过生成图像编码和真实图像编码采用损失函数训练训练网络模型得到图神经网络模型；该方法能够高效的生成具有较高视觉质量和较为正确物体之间关系的图像。权利要求书4页说明书9页附图2页 CN 115546589 A 2022.12.30 CN 115546589 A 1.一种基于图神经网络的图像生成方法，其特征在于，包括：（1）获得多张真实图像，基于所述真实图像中的物体构建场景拓扑图，将真实图像输入 VQGAN系统得到真实图像编码和图像特征节点集合，通过图像特征节点集合和对应的场景拓扑图构建超图，多个超图构建训练样本集；（2）构建训练网络模型，所述训练网络模型包括消息传递函数、注意力机制单元、全连接层和归一化指数函数，其中：场景拓扑图上的语义特征消息传递方式：在场景拓扑图中，通过消息传递函数将场景拓扑图节点的每个邻居节点的语义特征和连边特征进行融合得到第一邻居节点消息，将每个第一邻居节点消息通过注意力机制单元进行聚合，将聚合结果作为更新的场景拓扑图节点语义特征；全局消息传递方式：当图像特征节点的邻居节点为场景拓扑图节点时，采用回归网络方法基于场景拓扑图的每个节点构建矩形框，矩形框内为物体的图像特征节点，场景拓扑图的每个节点指向对应矩形框，通过消息传递函数将更新的场景拓扑图节点语义特征与对应的矩形框连接的全局连边特征进行融合，将融合结果通过注意力机制得到的聚合特征作为采用全局消息传递方式更新的图像特征；局部消息传递方式：当图像特征节点的邻居节点在当前矩形框内或其他矩形框内时，通过消息传递函数将矩形框内图像特征节点的邻居节点的图像特征和相应连边特征进行融合得到第二邻居节点信息，将每个第二邻居节点信息通过注意力机制单元进行聚合，将聚合结果作为采用局部消息传递方式更新的图像特征；将基于全局消息传递方式和局部消息传递方式更新得到的图像特征集合依次输入全连接层和归一化指数函数得到生成图像编码；（3）基于训练样本集对训练网络模型进行训练，通过生成图像编码和真实图像编码采用损失函数训练训练网络模型得到图神经网络模型；（4）应用时，将场景拓扑图输入至图神经网络模型中得到生成图像编码，将生成图像编码输入至VQGAN系统的解码器生成图像。 2.根据权利要求1所述的基于图神经网络的图像生成方法，其特征在于，将真实图像输入VQGAN系统得到真实图像编码，包括：先将真实图像通过VQGAN系统的编码器得到初始潜在向量组合，基于距离最近原理将初始潜在向量组合中的初始潜在向量与向量字典进行比对得到潜在向量组合，潜在向量组合的下标为真实图像编码，其中：所述潜在向量为：其中，为初始潜在向量组合， q（ ﹒ ）为距离最近函数， zk为向量字典中的第 k个向量， n为向量的维度， h和w分别为潜在向量的高度和宽度。 3.根据权利要求1所述的基于图神经网络的图像生成方法，其特征在于，所述基于所述真实图像中的物体构建的场景拓扑图，场景拓扑图节点表示真实图像中的物体，连边表示物体之间的关系，场景拓扑图由元祖组成，其中：场景拓扑图节点的集合O为：权　利　要　求　书 1/4 页 2 CN 115546589 A 2其中， oi为第i个场景拓扑图节点， N为场景拓扑图节点的个数，为一组物体类别；场景拓扑图连边的集合，为一组关系类别，每条边表示为，为的第个邻居节点，，为由第i个场景拓扑图节点指向第个场景拓扑图节点的连边。 4.根据权利要求1所述的基于图神经网络的图像生成方法，其特征在于，将场景拓扑图输入嵌入层网络中得到场景拓扑图节点的语义特征和连边特征。 5.根据权利要求3所述的基于图神经网络的图像生成方法，其特征在于，通过消息传递函数将场景拓扑图节点的每个邻居节点语义特征和连边特征进行融合得到第一邻居节点消息为：其中，为第个邻居节点语义特征，为连边特征，为场景拓扑图内信息传递参数矩阵，，D1为邻居节点的语义特征的维度， D2为连边特征的维度。 6.根据权利要求3所述的基于图神经网络的图像生成方法，其特征在于，通过融合结果更新图像特征节点对应的图像特征为：其中，为节点特征 vi的邻居节点集合，为归一化后的节点到节点的注意力系数， W1和W2分别为参数矩阵， GeLU为激活函数。 7.根据权利要求1所述的基于图神经网络的图像生成方法，其特征在于，基于全局消息传递方式更新得到的图像特征为：其中，为第i已更新的语义节点特征传递给第 j个图像节点特征的消息， rg为第g个全局连边类型，为全局连边类型的参数矩阵，为全局连边特征，为第i个已更新的语义节点特征到图像节点特征的注意力系数， W1和W2分别为参数矩阵，权　利　要　求　书 2/4 页 3 CN 115546589 A 3

专利 一种基于图神经网络的图像生成方法

专利一种基于图神经网络的图像生成方法