(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211506595.9
(22)申请日 2022.11.29
(71)申请人 城云科技 (中国) 有限公司
地址 310052 浙江省杭州市滨江区长河街
道江南大道588号恒 鑫大厦主楼17层、
18层
(72)发明人 毛云青 卓家雨 张香伟 彭大蒙
梁艺蕾
(74)专利代理 机构 杭州汇和信专利代理有限公
司 33475
专利代理师 吴琰
(51)Int.Cl.
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种实体与关系并行抽取模型及其构建方
法、 装置及应用
(57)摘要
本申请提出了一种实体与关系并行抽取模
型及其构建方法、 装置及应用, 包括以下步骤: 将
所述训练样 本送入实体与关系并行抽取模型中,
所述训练样本先经过所述并联模组得到共享信
息; 将所述共享信息输入到所述实体模组中到每
一所述训练样本中的实体预测标签; 将所述共享
信息输入到所述实体关系模组 中, 获取每一所述
训练样本中的每一字或词的多个实体 关系, 再对
所述每一实体词汇的标签与对应的多个实体关
系分别进行相对位置与内容上的关联度计算, 得
到每一实体的关联度矩阵, 根据关联度矩阵得到
实体关系预测结果。 本方案将实体模组与实体关
系模组合并为一个模型, 并结合语义信息与实体
相对位置信息进行实体关系预测, 提高预测准确
率。
权利要求书3页 说明书12页 附图4页
CN 115545043 A
2022.12.30
CN 115545043 A
1.一种实体与关系并行抽取模型的构建方法, 其特 征在于, 包括以下步骤:
获取至少一已标记实体词汇以及实体关系的城管事件文本作为训练样本, 利用所述训
练样本训练实体与关系并行抽取模型, 所述 实体与关系并行抽取模型包括拼接模组和并联
模组, 所述并联模组由实体模组和实体关系模组并联组成;
将所述训练样本输入到所述拼接模组中, 所述拼接模组分别对所述训练样本进行特征
提取, 得到样本特征和样本语义特征, 将所述样本特征与样本语义特征进行拼接得到拼接
特征, 根据所述拼接特征计算每一所述训练样本中各个字或词之间的注意力值, 根据所述
注意力值对所述 拼接特征进行深层次语义关系的抽取 得到共享信息;
将所述共享信 息输入到所述实体模组中, 所述实体模组对根据 所述共享信 息进行实体
词汇标签的预测 后得到预测实体词汇标签信息, 对所述预测实体词汇标签信息进 行评分得
到评分信息, 再根据所述评 分信息筛选出评分最高的结果得到每一所述训练样本中的实体
预测标签;
将所述共享信 息以及所述实体预测标签输入到所述实体关系模组中, 所述实体关系 模
组根据所述共享信息和所述 实体预测标签得到每一实体的关联度 矩阵, 根据所述每一实体
的关联度矩阵得到实体关系预测结果。
2.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法, 其特征在于, 所述
拼接模组由特征提取层、 多重注意力 层、 语义分析层串联 组成, 所述训练样 本输入到所述特
征提取层进行特征提取, 得到样本特征和样本语义特征, 每一所述样本特征中包含每一字
或词的内容特征向量和位置特征向量, 对所述样本特征和所述样本语义特征进行拼接后送
入所述多重注意力 层中对各个字或词之 间进行内容与内容、 内容与位置、 位置与内容、 位置
与位置的注意力计算, 并将其求和得到每一训练样本的多个注意力值, 将每一训练样本中
的多个注意力值和所述拼接特征输入到所述语义分析层, 所述语义分析层 对其进行深层次
语义信息的抽取后得到共享信息 。
3.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法, 其特征在于, 所述
实体模组由实体信息保留层、 评 分层、 条件随机场层串联 组成, 所述 实体信息保留层 对所述
共享信息中的训练样本进行实体位置与标签的预测, 得到预测实体词汇标签信息, 所述预
测实体词汇标签信息输入到所述评 分层, 所述评分层对所述预测实体词汇标签信息进 行评
分, 得到评 分信息, 所述条件随机场层 对所述评分信息进行筛选, 得到所述共享信息中每一
训练样本的实体预测标签。
4.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法, 其特征在于, 将所
述共享信息输入到所述实体关系模组中, 所述实体关系模组对所述共享信息进行关系提
取, 获取每一所述训练样本中的每一字或词的多个实体关系信息, 再对所述每一实体预测
标签与对应的多个实体关系信息分别进行相对位置与内容上的关联度计算, 得到实体关联
度向量与实体关系关联度向量, 将所述 实体关联度向量与所述实体关系关联度向量进 行拼
接得到每一 实体的关联度 矩阵, 对每一 实体的关联度 矩阵进行评分后得到实体关系预测结
果。
5.根据权利要求4所述的一种实体与关系并行抽取模型的构建方法, 所述实体关系模
组由关系信息 保留层、 实体与关系组合层、 评 分层串联组成, 所述关系信息保留层 对所述共
享信息中的关系关键词进行提取, 得到关系信息, 所述实体与关系组合层接 收所述实体预权 利 要 求 书 1/3 页
2
CN 115545043 A
2测标签与所述关系信息, 对所述各个实体预测标签进 行相对位置特征与内容特征的关联度
向量计算并进 行拼接得到实体关联度向量, 对所述各个关系信息进行相对位置特征与内容
特征的关联度向量计算并进行拼接得到实体关系关联度向量, 将所述实体关联度向量与所
述实体关系关联度向量进行拼接得到关联度矩阵, 所述评分层对所述关联度矩阵进行评
分, 通过所述关联度矩阵计算训练样本中各个实体之间的关系。
6.根据权利要求5所述的一种实体与关系并行抽取模型的构建方法, 其特征在于, 所述
评分层由关系矩阵计算模块、 前馈神经网络、 余弦距离计算模块、 拼接模块、 激活输出模块
组成, 所述关系矩阵计算模块、 前馈神经网络、 余弦距离计算模块并联组成, 合并模块对所
述关系矩阵计算模块、 前馈神经网络、 余弦距离计算模块的输出结果进 行合并后, 交由激活
输出模块进行激活输出。
7.根据权利要求1所述的一种实体与关系并行抽取模型的构建方法, 其特征在于, 所述
实体模组的损失反馈由实体与关系并行抽取模型的损失与所述实体关系模组中的实体与
关系组合层中的损失进行相加得到 。
8.一种实体与关系并行抽取模型, 使用权利要求1 ‑6任一所述的方法进行构建得到 。
9.一种实体与关系并行抽取 方法, 包括:
获取至少一待抽取文本, 将所述待抽取文本送入构建好的实体与关系并行抽取模型
中, 所述实体与关系并行抽取模型中的拼接模组对所述待抽取文本进行特征提取, 得到样
本特征和样本语义特征, 将所述样本特征和所述样本语义特征进行拼接得到拼接特征, 根
据所述拼接特征计算所述待抽取文本中各个字或词之 间的注意力值, 根据所述注意力值对
所述拼接特征进行深层次语义关系的抽取 得到共享信息;
将所述共享信 息输入到所述实体模组中, 所述实体模组对所述共享信 息进行实体词汇
标签的预测后得到实体词汇标签信息, 对所述实体词汇标签信息进行评分得到评分信息,
再根据所述评分信息 筛选出评分最高的结果得到所述待抽取文本中的实体标签;
将所述共享信 息输入到所述实体关系 模组中, 所述实体关系模组对所述共享信 息进行
关系提取, 获取所述待抽取文本中的每一字或词的多个实体关系信息, 再对所述每一实体
标签与对应的多个实体关系信息分别进行相对位置与内容上的关联度计算, 得到实体关联
度向量与实体关系关联度向量, 将所述 实体关联度向量与所述实体关系关联度向量进 行拼
接得到每一实体的关联度矩阵, 对每一实体的关联度矩阵进行评分后得到实体关系。
10.一种实体与关系并行抽取模型的构建装置, 其特 征在于, 包括以下步骤:
获取模块: 获取至少一已标记实体词汇以及实体关系的城管事件文本作为训练样本,
利用所述训练样本训练实体与关系并行抽取模型, 所述 实体与关系并行抽取模型包括拼接
模组和并联模组, 所述并联模组由实体模组和实体关系模组并联组成;
拼接模块: 将所述训练样本输入到所述拼接模组中, 所述拼接模组分别对所述训练样
本进行特征提取, 得到样本特征和样本语义特征, 将所述样本特征与样本语义特征进行拼
接得到拼接特征, 根据所述拼接特征计算每一所述训练样本中各个字或词之间的注意力
值, 根据所述注意力值对所述 拼接特征进行深层次语义关系的抽取 得到共享信息;
实体抽取模块: 将所述共享信息输入到所述实体模组中, 所述实体模组对根据所述共
享信息进 行实体词汇标签的预测 后得到预测实体词汇标签信息, 对所述预测实体词汇标签
信息进行评 分得到评分信息, 再根据所述评分信息筛选出评分最高的结果得到每一所述训权 利 要 求 书 2/3 页
3
CN 115545043 A
3
专利 一种实体与关系并行抽取模型及其构建方法、装置及应用
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:42上传分享