说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211506872.6 (22)申请日 2022.11.29 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 王国梁 毛云青 陈娜华 葛俊 (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 吴琰 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种长文本分类预处理模型及其构建方法、 装置及应用 (57)摘要 本申请提出了一种长文本分类预处理模型 的构建方法, 包括以下步骤: 获取至少一待处理 长文本作为训练样本, 其中每一所述待处理文本 中标记有标记词汇, 将所述训练样 本输入到长文 本分类预处理模 型中进行训练; 所述长文本分类 预处理模型由多个LS TM模块串联组成, 所述LS TM 模块包括决策网络和多层感知机制层, 使用所述 决策网络来判断每一标记词汇是否为关键词, 使 用所述多层感知机制层对所述标记词汇进行跳 过或保留。 所述长文本分类预处理模 型可以快速 将关键词信息整合到判断过程中, 对长文本进行 预处理, 以便于后续更好的对长文本进行分类 。 权利要求书2页 说明书10页 附图3页 CN 115544259 A 2022.12.30 CN 115544259 A 1.一种长文本分类预处 理模型的构建方法, 其特 征在于, 包括以下步骤: 获取至少一长文本作为训练样本, 其中每一所述长文本中标记有标记词汇, 所述标记 词汇中包 含关键词的标记, 将所述训练样本 输入到长文本分类预处 理模型中进行训练; 所述长文本分类预处理模型采用LSTM框架, 所述LSTM框架中包括多个LSTM模块串联组 成, 每一所述LSTM模块对应一标记词汇, 每一所述LSTM模块包括决策网络和多层感知机制 层, 且每一所述LSTM模块有两个输入和一个输出, 两个输入分别为第一输入向量和第二输 入向量, 第二输入向量为所述LSTM模块对应的标记词汇; 首个LSTM模块的第一输入向量为0 向量, 使用所述决策网络来判断所述第二输入向量是否为关键词, 再使用所述多层感知机 制层对第二输入向量进行跳过或保留操作, 若对所述第二输入向量进行跳过, 则该LSTM模 块的输出向量依旧为0向量, 若对所述第二输入向量进 行保留, 则将所述第一输入向量和所 述第二输入向量进行合并, 将合并后的向量作为该LSTM模块的输出向量, 将该LSTM模块的 输出向量作为下一 LSTM模块的第一输入向量进行输入, 遍历所有的LSTM模块。 2.根据权利要求1所述的一种长文本分类预处理模型的构建方法, 其特征在于, 在每一 所述LSTM模型 的多层感知机制层中使用激活函数对所述第二输入向量进行隐层状态的计 算, 得到每一所述第二输入向量的隐层状态, 所述隐层状态结合分类函数得到每一所述第 二输入向量的跳过 ‑保留概率分布, 再使用采样函数对每一所述第二输入向量的跳过 ‑保留 概率分布进行采样 操作, 得到每一所述第二输入向量的二元决策。 3.根据权利要求2所述的一种长文本分类预处理模型的构建方法, 其特征在于, 在多层 感知机制层对所述第二输入向量进行隐层状态的计算步骤中, 多层感知机制层结合当前 LSTM模块之前的前置上下文特征和当前LSTM模块之后的后置上下文特征和所述第二输入 向量共同计算隐层状态。 4.根据权利要求1所述的一种长文本分类预处理模型的构建方法, 其特征在于, 所述决 策网络为因子型决策网络, 所述因子型决策网络对每一所述第二输入向量定义一个关键词 向量, 将每一所述第二输入向量的关键词向量连接所述第二输入向量, 送入所述多层感知 机制层进行跳过或保留操作。 5.根据权利要求4所述的一种长文本分类预处理模型的构建方法, 其特征在于, 关键词 向量采用多维one ‑hot向量, 关键词向量设置为不同的正整数以确定每个关键词的重要程 度。 6.根据权利要求2所述的一种长文本分类预处理模型的构建方法, 其特征在于, 所述决 策网络为 门控型决策网络, 所述 门控型决策网络包括关键词门和决策门, 所述关键词门对 所述第二输入向量定义一个关键词权重, 并使用所述关键词权重判断所述第二输入向量所 代表的标记词汇为关键词的概率, 所述决策门将所述关键词的概率结合所述多层感知机制 层进行跳过或保留操作。 7.根据权利要求6所述的一种长文本分类预处理模型的构建方法, 其特征在于, 当所述 二元决策为0或者所述关键词的概率大于设定阈值时, 表示保留所述第二输入向量,在编号 为t的LSTM模块中将编号为t ‑1的LSTM模块和所述第二输入向量进行融合作为编号为t的 LSTM模块的输出向量; 当所述二元决策为 1时或者所述关键词的概率小于设定阈值时, 则跳 过所述第二输入向量, 则将编号为t ‑1的LSTM模块的输出作为编号为t的LSTM模块的输出向 量。权 利 要 求 书 1/2 页 2 CN 115544259 A 28.根据权利要求1所述的一种长文本分类预处理模型的构建方法, 其特征在于, 在所述 长文本分类预处理模型 的损失函数中添加 惩罚项, 当所述第二输入向量的跳过率过高时, 提高损失函数的损失值进行惩罚。 9.一种长文本分类预处理模型, 其特征在于, 所述长文本分类预处理模型使用权利要 求1‑8任一所述的方法进行构建。 10.一种长文本分类预处 理方法, 其特 征在于, 包括: 获取至少一待处理长文本, 将所述待处理长文本分词后顺序送入所述长文本分类预处 理模型中的每一LSTM模块中, 所述LSTM模块中的决策网络对每一对应词汇进 行关键词的判 断后, 送入所述多层感知基质层进行跳过或保留, 得到仅包 含保留词汇的处 理后文本 。 11.一种长文本分类预处 理模型的构建装置, 其特 征在于, 包括: 获取模块: 获取至少一长文本作为训练样本, 其中每一所述长文本中标记有标记词汇, 所述标记词汇中包含关键词的标记, 将所述训练样本输入到长文本 分类预处理模型中进 行 训练; 构建模块: 所述长文本分类预处理模型采用LSTM框架, 所述LSTM框架中包括多个LSTM 模块串联组成, 每一所述LSTM模块对应一标记词汇, 每一所述LSTM模块包括决策网络和多 层感知机制层, 且每一所述LSTM模块有两个输入和一个输出, 两个输入分别为第一输入向 量和第二输入向量, 第二输入向量为所述LSTM模块对应的标记词汇; 首个LSTM模块的第一 输入向量为0向量, 使用所述决策网络来判断所述第二输入向量是否为关键词, 再使用所述 多层感知机制层对第二输入向量进行跳过或保留操作, 若对所述第二输入向量进行跳过, 则该LSTM模块的输出向量依旧为0向量, 若对 所述第二输入向量进 行保留, 则将所述第一输 入向量和所述第二输入向量进行合并, 将合并后的向量作为该LSTM模块的输出向量, 将该 LSTM模块的输出向量作为下一 LSTM模块的第一输入向量进行输入, 遍历所有的LSTM模块。 12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑8任一所述的一种长文本 分类预处 理模型的构建方法或权利要求10所述的一种长文本分类预处 理方法。 13.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1 ‑8任一 所述的一种长文本分类预处理模型 的构建方法或权利要求10所述的一种长文本分类预处 理方法。权 利 要 求 书 2/2 页 3 CN 115544259 A 3
专利 一种长文本分类预处理模型及其构建方法、装置及应用
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:23:42
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GB-T 19766-2016 天然大理石建筑板材.pdf
GB-T 27513-2011 载人低压舱.pdf
T-BBIA 4—2023 电动自行车用锂离子动力电池组技术规范.pdf
GB-T 42467.4-2023 中医临床名词术语 第4部分:肛肠科学.pdf
GB-T 25285.1-2021 爆炸性环境 爆炸预防和防护 第1部分:基本原则和方法.pdf
GB-T 13747.26-2022 锆及锆合金化学分析方法 第26部分:合金及杂质元素的测定 电感耦合等离子体原子发射光谱法.pdf
T-GCHA 1.4—2018 定制家居产品 人造板定制衣柜 第4部分:安装验收规范.pdf
T-GHDQ 1—2017 高寒地区纯电动乘用车技术条件.pdf
CSA 企业数据安全风险管理指南.pdf
奇安信 数据泄露典型判例分析报告.pdf
上海市公共数据共享实施办法(试行)3.2发布.pdf
GB-T 28435-2012 地面数字电视广播发射机技术要求和测量方法.pdf
DB52-T 1124-2016 政府数据资源目录 第1部分:元数据描述规范 贵州省.pdf
GB-T 32212-2015 液相色谱用固定波长光度检测器的测试方法.pdf
GB-T 34680.3-2017 智慧城市评价模型及基础评价指标体系 第3部分:信息资源.pdf
GB-T 24498-2009 建筑门窗、幕墙用密封胶条.pdf
机房管理制度.pdf
GB/T 40143-2021 志愿服务组织基本规范.pdf
NIST 改善关键基础设施的网络安全框架 数据法盟翻译 2020.pdf
GB-T 13093-2023 饲料中细菌总数的测定.pdf
交流群
-->
1
/
16
评价文档
赞助2元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。