专利 一种长文本分类预处理模型及其构建方法、装置及应用

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211506872.6 (22)申请日 2022.11.29 (71)申请人城云科技（中国）有限公司地址 310052 浙江省杭州市滨江区长河街道江南大道588号恒鑫大厦主楼17层、 18层 (72)发明人王国梁　毛云青　陈娜华　葛俊　 (74)专利代理机构杭州汇和信专利代理有限公司 33475 专利代理师吴琰 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种长文本分类预处理模型及其构建方法、装置及应用 (57)摘要本申请提出了一种长文本分类预处理模型的构建方法，包括以下步骤：获取至少一待处理长文本作为训练样本，其中每一所述待处理文本中标记有标记词汇，将所述训练样本输入到长文本分类预处理模型中进行训练；所述长文本分类预处理模型由多个LS TM模块串联组成，所述LS TM 模块包括决策网络和多层感知机制层，使用所述决策网络来判断每一标记词汇是否为关键词，使用所述多层感知机制层对所述标记词汇进行跳过或保留。所述长文本分类预处理模型可以快速将关键词信息整合到判断过程中，对长文本进行预处理，以便于后续更好的对长文本进行分类。权利要求书2页说明书10页附图3页 CN 115544259 A 2022.12.30 CN 115544259 A 1.一种长文本分类预处理模型的构建方法，其特征在于，包括以下步骤：获取至少一长文本作为训练样本，其中每一所述长文本中标记有标记词汇，所述标记词汇中包含关键词的标记，将所述训练样本输入到长文本分类预处理模型中进行训练；所述长文本分类预处理模型采用LSTM框架，所述LSTM框架中包括多个LSTM模块串联组成，每一所述LSTM模块对应一标记词汇，每一所述LSTM模块包括决策网络和多层感知机制层，且每一所述LSTM模块有两个输入和一个输出，两个输入分别为第一输入向量和第二输入向量，第二输入向量为所述LSTM模块对应的标记词汇；首个LSTM模块的第一输入向量为0 向量，使用所述决策网络来判断所述第二输入向量是否为关键词，再使用所述多层感知机制层对第二输入向量进行跳过或保留操作，若对所述第二输入向量进行跳过，则该LSTM模块的输出向量依旧为0向量，若对所述第二输入向量进行保留，则将所述第一输入向量和所述第二输入向量进行合并，将合并后的向量作为该LSTM模块的输出向量，将该LSTM模块的输出向量作为下一 LSTM模块的第一输入向量进行输入，遍历所有的LSTM模块。 2.根据权利要求1所述的一种长文本分类预处理模型的构建方法，其特征在于，在每一所述LSTM模型的多层感知机制层中使用激活函数对所述第二输入向量进行隐层状态的计算，得到每一所述第二输入向量的隐层状态，所述隐层状态结合分类函数得到每一所述第二输入向量的跳过 ‑保留概率分布，再使用采样函数对每一所述第二输入向量的跳过 ‑保留概率分布进行采样操作，得到每一所述第二输入向量的二元决策。 3.根据权利要求2所述的一种长文本分类预处理模型的构建方法，其特征在于，在多层感知机制层对所述第二输入向量进行隐层状态的计算步骤中，多层感知机制层结合当前 LSTM模块之前的前置上下文特征和当前LSTM模块之后的后置上下文特征和所述第二输入向量共同计算隐层状态。 4.根据权利要求1所述的一种长文本分类预处理模型的构建方法，其特征在于，所述决策网络为因子型决策网络，所述因子型决策网络对每一所述第二输入向量定义一个关键词向量，将每一所述第二输入向量的关键词向量连接所述第二输入向量，送入所述多层感知机制层进行跳过或保留操作。 5.根据权利要求4所述的一种长文本分类预处理模型的构建方法，其特征在于，关键词向量采用多维one ‑hot向量，关键词向量设置为不同的正整数以确定每个关键词的重要程度。 6.根据权利要求2所述的一种长文本分类预处理模型的构建方法，其特征在于，所述决策网络为门控型决策网络，所述门控型决策网络包括关键词门和决策门，所述关键词门对所述第二输入向量定义一个关键词权重，并使用所述关键词权重判断所述第二输入向量所代表的标记词汇为关键词的概率，所述决策门将所述关键词的概率结合所述多层感知机制层进行跳过或保留操作。 7.根据权利要求6所述的一种长文本分类预处理模型的构建方法，其特征在于，当所述二元决策为0或者所述关键词的概率大于设定阈值时，表示保留所述第二输入向量，在编号为t的LSTM模块中将编号为t ‑1的LSTM模块和所述第二输入向量进行融合作为编号为t的 LSTM模块的输出向量；当所述二元决策为 1时或者所述关键词的概率小于设定阈值时，则跳过所述第二输入向量，则将编号为t ‑1的LSTM模块的输出作为编号为t的LSTM模块的输出向量。权　利　要　求　书 1/2 页 2 CN 115544259 A 28.根据权利要求1所述的一种长文本分类预处理模型的构建方法，其特征在于，在所述长文本分类预处理模型的损失函数中添加惩罚项，当所述第二输入向量的跳过率过高时，提高损失函数的损失值进行惩罚。 9.一种长文本分类预处理模型，其特征在于，所述长文本分类预处理模型使用权利要求1‑8任一所述的方法进行构建。 10.一种长文本分类预处理方法，其特征在于，包括：获取至少一待处理长文本，将所述待处理长文本分词后顺序送入所述长文本分类预处理模型中的每一LSTM模块中，所述LSTM模块中的决策网络对每一对应词汇进行关键词的判断后，送入所述多层感知基质层进行跳过或保留，得到仅包含保留词汇的处理后文本。 11.一种长文本分类预处理模型的构建装置，其特征在于，包括：获取模块：获取至少一长文本作为训练样本，其中每一所述长文本中标记有标记词汇，所述标记词汇中包含关键词的标记，将所述训练样本输入到长文本分类预处理模型中进行训练；构建模块：所述长文本分类预处理模型采用LSTM框架，所述LSTM框架中包括多个LSTM 模块串联组成，每一所述LSTM模块对应一标记词汇，每一所述LSTM模块包括决策网络和多层感知机制层，且每一所述LSTM模块有两个输入和一个输出，两个输入分别为第一输入向量和第二输入向量，第二输入向量为所述LSTM模块对应的标记词汇；首个LSTM模块的第一输入向量为0向量，使用所述决策网络来判断所述第二输入向量是否为关键词，再使用所述多层感知机制层对第二输入向量进行跳过或保留操作，若对所述第二输入向量进行跳过，则该LSTM模块的输出向量依旧为0向量，若对所述第二输入向量进行保留，则将所述第一输入向量和所述第二输入向量进行合并，将合并后的向量作为该LSTM模块的输出向量，将该 LSTM模块的输出向量作为下一 LSTM模块的第一输入向量进行输入，遍历所有的LSTM模块。 12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑8任一所述的一种长文本分类预处理模型的构建方法或权利要求10所述的一种长文本分类预处理方法。 13.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1 ‑8任一所述的一种长文本分类预处理模型的构建方法或权利要求10所述的一种长文本分类预处理方法。权　利　要　求　书 2/2 页 3 CN 115544259 A 3

专利 一种长文本分类预处理模型及其构建方法、装置及应用

专利一种长文本分类预处理模型及其构建方法、装置及应用