专利一种模型训练方法及装置 -在线下载 -pdf文件-u.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211487214.7 (22)申请日 2022.11.25 (71)申请人北京红棉小冰科技有限公司地址 100080 北京市海淀区北四环西路67 号6层608房间 (72)发明人陈杰　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师王治东 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种模型训练方法及装置 (57)摘要本发明提供一种模型训练方法及装置，可以从数据记录日志中，提取出第一数量的匹配行为记录数据；其中，各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，样本类别标识包括正样本标识和负样本标识；按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各匹配行为记录数据对数据匹配模型进行训练；其中，正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度，负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。本发明可以优化对数据匹配模型的训练效果，使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。权利要求书2页说明书14页附图4页 CN 115545121 A 2022.12.30 CN 115545121 A 1.一种模型训练方法，其特征在于，包括：从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，所述样本类别标识包括正样本标识和负样本标识；按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练；其中，所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度，所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。 2.根据权利要求1所述的模型训练方法，其特征在于，所述数据匹配模型为数据搜索模型或数据推荐模型。 3.根据权利要求1所述的模型训练方法，其特征在于，所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练，包括：分别确定各所述匹配行为记录数据的对比损失；基于各所述匹配行为记录数据的对比损失，确定综合对比损失；基于所述综合对比损失，更新所述数据匹配模型的模型参数。 4.根据权利要求3所述的模型训练方法，其特征在于，所述分别确定各所述匹配行为记录数据的对比损失，包括：基于交叉熵计算方式，计算出各所述匹配行为记录数据的对比损失。 5.根据权利要求3所述的模型训练方法，其特征在于，所述基于各所述匹配行为记录数据的对比损失，确定综合对比损失，包括：将各所述匹配行为记录数据的对比损失输入到综合对比损失确定模型中，获得所述综合对比损失确定模型输出的所述综合对比损失；其中，所述综合对比损失确定模型用于在获得各所述匹配行为记录数据的对比损失后，计算出各所述匹配行为记录数据的对比损失的和值，将所述和值除以反馈数据总数量所获得的值确定为所述综合对比损失，所述反馈数据总数量为所有所述匹配行为记录数据中反馈数据的总数量。 6.根据权利要求4所述的模型训练方法，其特征在于，当所述数据匹配模型为排序模型时，确定所述待匹配数据与所述反馈数据的匹配度，包括：将所述待匹配数据和所述反馈数据输入到第一特征提取网络，获得所述第一特征提取网络输出的目标向量距离；将所述目标向量距离确定为所述待匹配数据与所述反馈数据的匹配度；其中，所述目标向量距离是由所述第一特征提取网络通过以下步骤生成：分别从已输入的所述待匹配数据和所述反馈数据中提取出第一特征向量和第二特征向量，计算出所述第一特征向量和所述第二特征向量的向量距离，将计算出的向量距离确定为所述目标向量距离。 7.根据权利要求4所述的模型训练方法，其特征在于，当所述数据匹配模型为召回模型时，确定所述待匹配数据与所述反馈数据的匹配度，包括：利用第二特征提取网络，从所述待匹配数据中提取出第三特征向量；权　利　要　求　书 1/2 页 2 CN 115545121 A 2利用第三特征提取网络，从所述反馈数据提取出第四特征向量；将所述第三特征向量与所述第四特征向量的向量距离确定为所述待匹配数据与所述反馈数据的匹配度。 8.根据权利要求1所述的模型训练方法，其特征在于，所述第一数量的所述匹配行为记录数据中包括标注有正样本标识的所述反馈数据和/或标注有负样本标识的所述反馈数据。 9.根据权利要求1所述的模型训练方法，其特征在于，在所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练之前，所述模型训练方法还包括：在所述第一数量的所述匹配行为记录数据中，将非目标匹配行为记录数据中的至少一个所述反馈数据，设置为所述目标匹配行为记录数据中标注有负样本标识的所述反馈数据。 10.一种模型训练装置，其特征在于，包括：提取单元和训练单元；其中：所述提取单元，用于从数据记录日志中，提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据；其中，各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据，所述样本类别标识包括正样本标识和负样本标识；所述训练单元，用于按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标，利用各所述匹配行为记录数据对所述数据匹配模型进行训练；其中，所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度，所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。权　利　要　求　书 2/2 页 3 CN 115545121 A 3

专利 一种模型训练方法及装置

专利一种模型训练方法及装置