专利文本类敏感信息识别方法、装置、电子设备和存储介质 -在线下载 -pdf文件-u.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211478845.2 (22)申请日 2022.11.24 (71)申请人闪捷信息科技有限公司地址 311100 浙江省杭州市余杭区五常街道文一西路9 98号9幢101室 (72)发明人张黎　陈广辉　穆新宇　程树华　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师何明伦 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本类敏感信息识别方法、装置、电子设备和存储介质 (57)摘要本发明提供一种文本类敏感信息识别方法、装置、电子设备和存储介质，其中方法包括：对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；对任一待识别文本的待识别句进行语义信息提取，得到待识别句的句语义向量以及待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及待识别句的句语义向量确定得到的；结合待识别句的句语义向量以及待识别句中每一分词的词语义向量，识别待识别句中的敏感信息以及敏感信息的描述信息。本发明提升了海量数据的敏感数据识别效率以及敏感信息的识别率。权利要求书3页说明书13页附图3页 CN 115544240 A 2022.12.30 CN 115544240 A 1.一种文本类敏感信息识别方法，其特征在于，包括：对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。 2.根据权利要求1所述的文本类敏感信息识别方法，其特征在于，所述基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，具体包括：基于所述语义信息提取层中的第一双向长短时记忆网络，对所述任一待识别文本的待识别句进行语义提取，得到所述待识别句的句语义向量；将所述待识别句中各个分词的预训练词向量分别与所述待识别句的句语义向量进行融合，得到所述待识别句中各个分词的融合向量；基于所述语义信息提取层中的第二双向长短时记忆网络对所述待识别句中各个分词的融合向量进行语义提取，得到所述待识别句中每一分词的词语义向量。 3.根据权利要求2所述的文本类敏感信息识别方法，其特征在于，所述基于所述语义信息提取层中的第一双向长短时记忆网络，对所述任一待识别文本的待识别句进行语义提取，得到所述待识别句的句语义向量，具体包括：基于所述第一双向长短时记忆网络，对所述任一待识别文本的待识别句中各个分词的预训练词向量进行语义提取，得到所述待识别句中各个分词的上下文词向量；确定所述待识别句中任一分词的上下文词向量与各类敏感信息对应标签的标签向量之间的相似度，并将最大相似度作为所述任一分词的权重；基于所述待识别句中各个分词的上下文词向量与各个分词的权重，确定所述待识别句的句语义向量。 4.根据权利要求1所述的文本类敏感信息识别方法，其特征在于，所述基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息，具体包括：获取与所述待识别句属于同一文档且包含所述待识别句的有效分词的参考识别句；基于敏感信息识别模型中的语义信息提取层，对所述参考识别句进行语义信息提取，得到所述参考识别句的句语义向量以及所述参考识别句中各个分词的词语义向量；基于所述参考识别句的句语义向量和所述待识别句的句语义向量之间的相似度，融合权　利　要　求　书 1/3 页 2 CN 115544240 A 2所述参考识别句和所述待识别句中相同分词的词语义向量，得到所述相同分词的融合向量；基于所述敏感信息识别模型中的敏感实体识别层，结合所述待识别句中所述相同分词的融合向量和其余分词的词语义向量，识别所述待识别句中的敏感信息以及所述敏感信息的描述信息。 5.根据权利要求1所述的文本类敏感信息识别方法，其特征在于，所述基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：对所述各个文本类集合中的候选识别文本分别进行随机抽样，得到所述各个文本类集合的抽样文本；基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合。 6.根据权利要求5所述的文本类敏感信息识别方法，其特征在于，所述基于所述各个文本类集合的抽样文本的文本特征，确定进行敏感信息识别的待识别文本类集合，具体包括：获取各类敏感信息对应的样本文本集合，并提取各类敏感信息对应的样本文本集合中各个样本文本的文本特征；确定任一文本类集合的抽样文本的文本特征与任一类敏感信息对应的样本文本集合中各个样本文本的文本特征之间的相似度，并将最大相似度作为所述任一文本类集合与所述任一类敏感信息之间的匹配程度；若所述任一文本类集合与至少一类敏感信息之间的匹配程度大于预设阈值，则将所述任一文本类集合作为待识别文本类集合。 7.根据权利要求1至6任一项所述的文本类敏感信息识别方法，其特征在于，所述敏感信息识别模型是基于如下步骤训练得到的：基于所述敏感信息识别模型对各类敏感信息对应的样本文本集合中的样本文本进行敏感信息识别，得到所述样本文本的敏感信息识别结果；基于所述样本文本的敏感信息识别结果以及所述样本文本中的敏感信息的标签，计算所述样本文本对应的交叉熵损失和合页损失；基于所述样本文本对应的交叉熵损失和合页损失，调整所述敏感信息识别模型的参数。 8.一种文本类敏感信息识别装置，其特征在于，包括：文本筛选单元，用于对候选识别文本集合中的各个候选识别文本进行聚类，得到各个文本类集合，并基于各个文本类集合中各个候选识别文本的文本特征，确定进行敏感信息识别的待识别文本类集合；文本切分单元，用于针对所述待识别文本类集合中的任一待识别文本进行句切分，得到所述任一待识别文本的待识别句；语义信息提取单元，用于基于敏感信息识别模型中的语义信息提取层，对所述任一待识别文本的待识别句进行语义信息提取，得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量；任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向量确定得到的；权　利　要　求　书 2/3 页 3 CN 115544240 A 3

专利 文本类敏感信息识别方法、装置、电子设备和存储介质

专利文本类敏感信息识别方法、装置、电子设备和存储介质