(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211506872.6 (22)申请日 2022.11.29 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 王国梁 毛云青 陈娜华 葛俊  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 吴琰 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种长文本分类预处理模型及其构建方法、 装置及应用 (57)摘要 本申请提出了一种长文本分类预处理模型 的构建方法, 包括以下步骤: 获取至少一待处理 长文本作为训练样本, 其中每一所述待处理文本 中标记有标记词汇, 将所述训练样 本输入到长文 本分类预处理模 型中进行训练; 所述长文本分类 预处理模型由多个LS TM模块串联组成, 所述LS TM 模块包括决策网络和多层感知机制层, 使用所述 决策网络来判断每一标记词汇是否为关键词, 使 用所述多层感知机制层对所述标记词汇进行跳 过或保留。 所述长文本分类预处理模 型可以快速 将关键词信息整合到判断过程中, 对长文本进行 预处理, 以便于后续更好的对长文本进行分类 。 权利要求书2页 说明书10页 附图3页 CN 115544259 A 2022.12.30 CN 115544259 A 1.一种长文本分类预处 理模型的构建方法, 其特 征在于, 包括以下步骤: 获取至少一长文本作为训练样本, 其中每一所述长文本中标记有标记词汇, 所述标记 词汇中包 含关键词的标记, 将所述训练样本 输入到长文本分类预处 理模型中进行训练; 所述长文本分类预处理模型采用LSTM框架, 所述LSTM框架中包括多个LSTM模块串联组 成, 每一所述LSTM模块对应一标记词汇, 每一所述LSTM模块包括决策网络和多层感知机制 层, 且每一所述LSTM模块有两个输入和一个输出, 两个输入分别为第一输入向量和第二输 入向量, 第二输入向量为所述LSTM模块对应的标记词汇; 首个LSTM模块的第一输入向量为0 向量, 使用所述决策网络来判断所述第二输入向量是否为关键词, 再使用所述多层感知机 制层对第二输入向量进行跳过或保留操作, 若对所述第二输入向量进行跳过, 则该LSTM模 块的输出向量依旧为0向量, 若对所述第二输入向量进 行保留, 则将所述第一输入向量和所 述第二输入向量进行合并, 将合并后的向量作为该LSTM模块的输出向量, 将该LSTM模块的 输出向量作为下一 LSTM模块的第一输入向量进行输入, 遍历所有的LSTM模块。 2.根据权利要求1所述的一种长文本分类预处理模型的构建方法, 其特征在于, 在每一 所述LSTM模型 的多层感知机制层中使用激活函数对所述第二输入向量进行隐层状态的计 算, 得到每一所述第二输入向量的隐层状态, 所述隐层状态结合分类函数得到每一所述第 二输入向量的跳过 ‑保留概率分布, 再使用采样函数对每一所述第二输入向量的跳过 ‑保留 概率分布进行采样 操作, 得到每一所述第二输入向量的二元决策。 3.根据权利要求2所述的一种长文本分类预处理模型的构建方法, 其特征在于, 在多层 感知机制层对所述第二输入向量进行隐层状态的计算步骤中, 多层感知机制层结合当前 LSTM模块之前的前置上下文特征和当前LSTM模块之后的后置上下文特征和所述第二输入 向量共同计算隐层状态。 4.根据权利要求1所述的一种长文本分类预处理模型的构建方法, 其特征在于, 所述决 策网络为因子型决策网络, 所述因子型决策网络对每一所述第二输入向量定义一个关键词 向量, 将每一所述第二输入向量的关键词向量连接所述第二输入向量, 送入所述多层感知 机制层进行跳过或保留操作。 5.根据权利要求4所述的一种长文本分类预处理模型的构建方法, 其特征在于, 关键词 向量采用多维one ‑hot向量, 关键词向量设置为不同的正整数以确定每个关键词的重要程 度。 6.根据权利要求2所述的一种长文本分类预处理模型的构建方法, 其特征在于, 所述决 策网络为 门控型决策网络, 所述 门控型决策网络包括关键词门和决策门, 所述关键词门对 所述第二输入向量定义一个关键词权重, 并使用所述关键词权重判断所述第二输入向量所 代表的标记词汇为关键词的概率, 所述决策门将所述关键词的概率结合所述多层感知机制 层进行跳过或保留操作。 7.根据权利要求6所述的一种长文本分类预处理模型的构建方法, 其特征在于, 当所述 二元决策为0或者所述关键词的概率大于设定阈值时, 表示保留所述第二输入向量,在编号 为t的LSTM模块中将编号为t ‑1的LSTM模块和所述第二输入向量进行融合作为编号为t的 LSTM模块的输出向量; 当所述二元决策为 1时或者所述关键词的概率小于设定阈值时, 则跳 过所述第二输入向量, 则将编号为t ‑1的LSTM模块的输出作为编号为t的LSTM模块的输出向 量。权 利 要 求 书 1/2 页 2 CN 115544259 A 28.根据权利要求1所述的一种长文本分类预处理模型的构建方法, 其特征在于, 在所述 长文本分类预处理模型 的损失函数中添加 惩罚项, 当所述第二输入向量的跳过率过高时, 提高损失函数的损失值进行惩罚。 9.一种长文本分类预处理模型, 其特征在于, 所述长文本分类预处理模型使用权利要 求1‑8任一所述的方法进行构建。 10.一种长文本分类预处 理方法, 其特 征在于, 包括: 获取至少一待处理长文本, 将所述待处理长文本分词后顺序送入所述长文本分类预处 理模型中的每一LSTM模块中, 所述LSTM模块中的决策网络对每一对应词汇进 行关键词的判 断后, 送入所述多层感知基质层进行跳过或保留, 得到仅包 含保留词汇的处 理后文本 。 11.一种长文本分类预处 理模型的构建装置, 其特 征在于, 包括: 获取模块: 获取至少一长文本作为训练样本, 其中每一所述长文本中标记有标记词汇, 所述标记词汇中包含关键词的标记, 将所述训练样本输入到长文本 分类预处理模型中进 行 训练; 构建模块: 所述长文本分类预处理模型采用LSTM框架, 所述LSTM框架中包括多个LSTM 模块串联组成, 每一所述LSTM模块对应一标记词汇, 每一所述LSTM模块包括决策网络和多 层感知机制层, 且每一所述LSTM模块有两个输入和一个输出, 两个输入分别为第一输入向 量和第二输入向量, 第二输入向量为所述LSTM模块对应的标记词汇; 首个LSTM模块的第一 输入向量为0向量, 使用所述决策网络来判断所述第二输入向量是否为关键词, 再使用所述 多层感知机制层对第二输入向量进行跳过或保留操作, 若对所述第二输入向量进行跳过, 则该LSTM模块的输出向量依旧为0向量, 若对 所述第二输入向量进 行保留, 则将所述第一输 入向量和所述第二输入向量进行合并, 将合并后的向量作为该LSTM模块的输出向量, 将该 LSTM模块的输出向量作为下一 LSTM模块的第一输入向量进行输入, 遍历所有的LSTM模块。 12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑8任一所述的一种长文本 分类预处 理模型的构建方法或权利要求10所述的一种长文本分类预处 理方法。 13.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1 ‑8任一 所述的一种长文本分类预处理模型 的构建方法或权利要求10所述的一种长文本分类预处 理方法。权 利 要 求 书 2/2 页 3 CN 115544259 A 3

PDF文档 专利 一种长文本分类预处理模型及其构建方法、装置及应用

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种长文本分类预处理模型及其构建方法、装置及应用 第 1 页 专利 一种长文本分类预处理模型及其构建方法、装置及应用 第 2 页 专利 一种长文本分类预处理模型及其构建方法、装置及应用 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。