技术特征:
1.一种用于信息检索的方法,包括:提供对预先计算的项目
‑
文档索引的访问,所述预先计算的项目
‑
文档索引中的每个排名分数由机器学习模型提供,所述机器学习模型使用训练数据集而被训练,所述训练数据集包括查询项目
‑
文档对;接收查询;将所述查询拆分为所述查询的组成查询项目;针对每个组成查询项目:基于来自所述预先计算的项目
‑
文档索引的所述组成查询项目,为文档集合中的每个文档检索对应的排名分数;以及通过文档聚合所述组成查询项目的所述排名分数;通过对应的聚合排名分数对所述文档集合进行排名;选择已排名的所述文档集合的子集作为搜索结果集合;以及响应于所述查询返回所述搜索结果集合。2.根据权利要求1所述的方法,其中所述预先计算的项目
‑
文档索引是使用包括以下步骤的方法而被创建的:标识查询集合;针对所述查询集合中的每个查询:将考虑中的查询拆分为所述查询的组成查询项目;以及针对每个组成查询项目:使用经训练的所述机器学习模型为所述文档集合中的每个文档计算所述排名分数;以及将所述排名分数存储在所述预先计算的项目
‑
文档索引中。3.根据权利要求1所述的方法,其中所述预先计算的项目
‑
文档索引是从另一系统被接收的。4.根据权利要求1所述的方法,其中所述预先计算的项目
‑
文档索引是在执行所述方法的系统上被计算的。5.根据权利要求1所述的方法,其中所述机器学习模型是使用包括以下步骤的方法而被训练的:标识包括查询
‑
文档对集合的第一训练数据;将每个查询
‑
文档对拆分为查询项目
‑
文档对集合,从而创建第二训练数据;标识与查询项目无关的损失函数;通过针对所述第二训练数据最小化所述与查询项目无关的损失函数,来训练所述机器学习模型。6.根据权利要求5所述的方法,其中所述与查询项目无关的损失函数是项目
‑
文档分数的加权和。7.根据权利要求5所述的方法,其中所述与查询项目无关的损失函数是正文档示例的项目
‑
文档分数与负文档示例的项目
‑
文档分数的差异的加权和的函数。8.根据权利要求5所述的方法,其中每个项目
‑
文档对包括:来自查询
‑
文档对的查询项目;以及
来自所述查询
‑
文档对的正文档示例或者来自所述查询
‑
文档对的负文档示例中的一项。9.根据权利要求5所述的方法,其中每个项目
‑
文档对包括:来自查询
‑
文档对的查询项目;来自所述查询
‑
文档对的正文档示例;以及来自所述查询
‑
文档对的负文档示例。10.根据权利要求1所述的方法,还包括从较大的文档集合中选择所述文档集合,使得所述文档集合是所述较大文档集合的子集。11.根据权利要求1所述的方法,还包括:为所述组成查询项目的所述排名分数动态地选择权重。12.一种包括处理器和计算机可执行指令的系统,所述计算机可执行指令在由所述处理器执行时使所述系统执行操作,所述操作包括:利用包括以下步骤的操作来创建预先计算的项目
‑
文档索引:标识查询项目集合;提供对机器学习模型的访问,所述机器学习模型使用训练数据集而被训练,所述训练数据集包括查询项目
‑
文档对;针对所述查询项目集合中的每个查询项目:使用经训练的机器学习模型为文档集合中的每个文档计算排名分数;以及将所述排名分数存储在所述预先计算的项目
‑
文档索引中;利用包括以下步骤的操作来选择查询结果集合:接收查询;将所述查询拆分为所述查询的组成查询项目;针对每个组成查询项目:基于来自所述预先计算的项目
‑
文档索引的所述组成查询项目,为所述文档集合中的每个文档检索对应的排名分数;以及通过文档聚合所述组成查询项目的所述对应排名分数;通过对应的聚合排名分数对所述文档集合进行排名;选择已排名的所述文档集合的子集作为所述搜索结果集合;以及响应于所述查询返回所述搜索结果集合。13.根据权利要求12所述的系统,还包括从较大的文档集合中选择所述文档集合,使得所述文档集合是所述较大文档集合的子集。14.根据权利要求12所述的系统,还包括使用包括以下的操作来训练所述机器学习模型:标识包括查询
‑
文档对集合的第一训练数据;将每个查询
‑
文档对拆分为查询项目
‑
文档对集合,从而创建第二训练数据;标识与查询项目无关的损失函数;通过针对所述第二训练数据最小化所述与查询项目无关的损失函数,来训练所述机器学习模型。15.根据权利要求14所述的系统,其中所述与查询项目无关的损失函数是项目
‑
文档分
数的加权和的函数。
技术总结
本文描述了一种用于利用神经网络标识和排名搜索结果的机制。机器学习模型是通过将包括查询
技术研发人员:C
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:2020.03.25
技术公布日:2022/1/6
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。