(12)发明专利申请
(10)申请公布号(10)申请公布号 CN 104252456 A(43)申请公布日 2014.12.31
(21)申请号 201310256387.2(22)申请日 2013.06.25
(71)申请人阿里巴巴集团控股有限公司
地址英属开曼群岛大开曼资本大厦一座四
层847号邮箱(72)发明人程微宏
(74)专利代理机构北京安信方达知识产权代理
有限公司 11262
代理人解婷婷 栗若木(51)Int.Cl.
G06F 17/30(2006.01)G06F 17/27(2006.01)
权利要求书6页 说明书18页 附图3页权利要求书6页 说明书18页 附图3页
(54)发明名称
一种权重估计方法、装置及系统(57)摘要
本申请提供一种权重估计方法,获取用户行为日志,基于用户行为日志获取对象的展现信息、点击信息和成交信息;对查询信息按预设规则进行分词,获得分词单元,根据分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;根据所述分词单元的展现信息、点击信息和成交信息确定分词单元的点击率和点击转化率;根据分词单元的点击率和点击转化率确定分词单元的权重,作为该分词单元对应该对象的权重。本申请还提供一种权重估计方法,根据当前查询信息以及各分词单元的权重确定各对象的权重。本申请还提供一种权重估计方法和系统。本申请提高了排序的准确度。CN 104252456 ACN 104252456 A
权 利 要 求 书
1/6页
1.一种权重估计方法,其特征在于,包括:获取用户行为日志,基于所述用户行为日志获取对象的展现信息、点击信息和成交信息;
对所述查询信息按预设规则进行分词,获得分词单元,根据所述分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;
根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率;
根据所述分词单元的点击率和点击转化率确定所述分词单元的权重,作为该分词单元对应该对象的权重。
2.如权利要求1所述的方法,其特征在于,所述对象的展现信息包括第一展现集合,为给该对象带来展现的查询信息集合,所述对象的点击信息包括第一点击集合,为给该对象带来点击的查询信息集合,所述对象的成交信息包括第一成交集合,为给该对象带来成交的查询信息集合;
所述分词单元的展现信息包括第一展现数,即所述第一展现集合中该分词单元出现的次数,所述分词单元的点击信息包括第一点击数,即所述第一点击集合中该分词单元出现的次数,所述分词单元的成交信息包括第一成交数,即所述第一成交集合中该分词单元出现的次数;
所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率。
3.如权利要求2所述的方法,其特征在于,所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
其中,所述N0,N1均大于0,所述thresholdpv1,thresholdclick1均大于等于0。4.如权利要求1所述的方法,其特征在于,所述方法还包括:所述对象的展现信息还包括第二展现集合,为给该对象所属类目带来展现的查询信息集合,所述对象的点击信息还包括第二点击集合,为给该对象所属类目带来点击的查询信息集合,所述对象的成交信息还包括第二成交集合,为给该对象所属类目带来成交的查询信息集合;
2
CN 104252456 A
权 利 要 求 书
2/6页
所述分词单元的展现信息还包括第二展现数,即所述第二展现集合中该分词单元出现的次数,所述分词单元的点击信息还包括第二点击数,即所述第二点击集合中该分词单元出现的次数,所述分词单元的成交信息还包括第二成交数,即所述第二成交集合中该分词单元出现的次数;
所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元点击率和点击转化率包括:
根据所述分词单元的第一展现数、第一点击数和第一成交数确定所述分词单元的第一点击率和第一点击转化率;根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率;
根据所述第一点击率和所述第二点击率确定所述分词单元的点击率;
根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率。5.如权利要求4所述的方法,其特征在于,所述根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的第一点击率和第一点击转化率包括:
所述根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率包括:
其中,所述N0,N1,N2,N3均大于0,所述thresholdpv1,thresholdclick1,thresholdpv2,thresholdclick2均大于等于0。
6.如权利要求4所述的方法,其特征在于,
所述根据所述第一点击率和所述第二点击率确定所述分词单元的点击率包括:所述分词单元的点击率=λ1*第一点击率+(1-λ1)*第二点击率
所述根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率包括:
所述分词单元的点击转化率=λ2*第一点击转化率+(1-λ2)*第二点击转化率
3
CN 104252456 A
权 利 要 求 书
3/6页
其中,0≤λ1≤1,0≤λ2≤1。7.如权利要求1所述的方法,其特征在于,所述根据所述分词单元的点击率和点击转化率确定所述分词单元的权重包括:
所述分词单元的权重=
α*所述分词单元的点击率+(1-α)*所述分词单元的点击转化率其中,0≤α≤1。8.一种权重估计方法,其特征在于,包括:获取当前查询信息;
对所述当前查询信息按预设规则进行分词,获得所述当前查询信息的一个或多个分词单元;
根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重;其中,所述当前查询信息的一个或多个分词单元对应的各对象的权重基于权利要求1至7任一所述的方法获取。
9.如权利要求8所述的方法,其特征在于,每个分词单元还包括一属性,每个属性对应一属性权重;
所述根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重包括:
其中,所述分词单元i,i=1...k为对所述当前查询信息进行分词获得的分词单元中与所述对象匹配的k个分词单元,k≥1。
10.如权利要求8或9所述的方法,其特征在于,所述方法还包括:对所述对象进行排序,且排序时至少基于所述对象的所述权重。11.一种权重估计装置,其特征在于,包括第一信息获取单元、第二信息获取单元、分词单元信息处理单元和第一权重估计单元,其中:
所述第一信息获取单元用于,获取用户行为日志,基于所述用户行为日志获取对象的展现信息、点击信息和成交信息;
所述第二信息获取单元用于,对所述查询信息按预设规则进行分词,获得分词单元,根据所述分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;
所述分词单元信息处理单元用于,根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率;
所述第一权重估计单元用于,根据所述分词单元的点击率和点击转化率确定所述分词单元的权重,作为该分词单元对应该对象的权重。
12.如权利要求11所述的装置,其特征在于,
所述第一信息获取单元获取的所述对象的展现信息包括第一展现集合,为给该对象带来展现的查询信息集合,所述对象的点击信息包括第一点击集合,为给该对象带来点击的
4
CN 104252456 A
权 利 要 求 书
4/6页
查询信息集合,所述对象的成交信息包括第一成交集合,为给该对象带来成交的查询信息集合;
所述第二信息获取单元获取的所述分词单元的展现信息包括第一展现数,即所述第一展现集合中该分词单元出现的次数,所述分词单元的点击信息包括第一点击数,即所述第一点击集合中该分词单元出现的次数,所述分词单元的成交信息包括第一成交数,即所述第一成交集合中该分词单元出现的次数;
所述分词单元信息处理单元根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率。
13.如权利要求12所述的装置,其特征在于,
所述分词单元信息处理单元根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
其中,所述N0,N1均大于0,所述thresholdpv1,thresholdclick1均大于等于0。14.如权利要求11所述的装置,其特征在于,
所述第一信息获取单元获取的所述对象的展现信息还包括第二展现集合,为给该对象所属类目带来展现的查询信息集合,所述对象的点击信息还包括第二点击集合,为给该对象所属类目带来点击的查询信息集合,所述对象的成交信息还包括第二成交集合,为给该对象所属类目带来成交的查询信息集合;
所述第二信息获取单元获取的所述分词单元的展现信息还包括第二展现数,即所述第二展现集合中该分词单元出现的次数,所述分词单元的点击信息还包括第二点击数,即所述第二点击集合中该分词单元出现的次数,所述分词单元的成交信息还包括第二成交数,即所述第二成交集合中该分词单元出现的次数;
所述分词单元信息处理单元根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元点击率和点击转化率包括:
第一点击数和第一成交数确定所述分词单元的第一根据所述分词单元的第一展现数、
点击率和第一点击转化率;根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率;
根据所述第一点击率和所述第二点击率确定所述分词单元的点击率;
根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率。15.如权利要求14所述的装置,其特征在于,所述分词单元信息处理单元根据所述分
5
CN 104252456 A
权 利 要 求 书
5/6页
词单元的第一展现数、第一点击数和第一成交数确定该分词单元的第一点击率和第一点击转化率包括:
所述分词单元信息处理单元根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率包括:
其中,所述N0,N1,N2,N3均大于0,所述thresholdpv1,thresholdclick1,thresholdpv2,thresholdclick2均大于等于0。
16.如权利要求14所述的装置,其特征在于,
所述分词单元信息处理单元根据所述第一点击率和所述第二点击率确定所述分词单元的点击率包括:
所述分词单元的点击率=λ1*第一点击率+(1-λ1)*第二点击率
所述分词单元信息处理单元根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率包括:
所述分词单元的点击转化率=λ2*第一点击转化率+(1-λ2)*第二点击转化率其中,0≤λ2≤1,0≤λ2≤1。17.如权利要求11所述的装置,其特征在于,所述第一权重估计单元根据所述分词单元的点击率和点击转化率确定所述分词单元的权重包括:
所述分词单元的权重=
α*所述分词单元的点击率+(1-α)*所述分词单元的点击转化率其中,0≤α≤1。
18.一种权重估计系统,其特征在于,包括:查询信息获取单元、分词处理单元、如权利要求11至17任一所述的权重估计装置、第二权重估计单元,其中:
所述查询信息获取单元用于,获取当前查询信息;所述分词处理单元用于,对所述当前查询信息按预设规则进行分词,获得所述当前查
6
CN 104252456 A
权 利 要 求 书
6/6页
询信息的一个或多个分词单元;
所述权重估计装置用于,获取所述当前查询信息的一个或多个分词单元对应的各对象的权重;
所述第二权重估计单元用于,根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重。
19.如权利要求18所述的系统,其特征在于,每个分词单元还包括一属性,每个属性对应一属性权重;
所述第二权重估计单元根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重包括:
其中,所述分词单元i,i=1...k为对所述当前查询信息进行分词获得的分词单元中与所述对象匹配的k个分词单元,k≥1。
20.如权利要求18或19所述的系统,其特征在于,所述系统还包括排序单元,用于对所述对象进行排序,且排序时至少基于所述对象的所述权重。
7
CN 104252456 A
说 明 书
一种权重估计方法、装置及系统
1/18页
技术领域
[0001]
本申请涉及网络技术领域,尤其涉及一种权重估计方法、装置和系统。
背景技术
相关性是衡量检索系统质量的重要指标,如何提高系统返回结果的相关性一直是
信息检索领域的研究重点。在传统网页搜索引擎中,衡量一个结果和查询的相关性可以分两部分:动态相关性和静态相关性。动态相关性包含文本相关性、主题相关性及点击反馈(意图相关性)等。静态相关性包含pagerank(页面权重)及网站权威性等。在线上排序时,通过将上述的相关性特征组合加权得到最后的有序结果推荐给用户。[0003] 无论是网页搜索还是商品搜索,系统都需要返回最契合用户查询意图的结果集,并将结果集中的结果按照相关程度进行排序。文本相关性模型是线上相关性排序的重要模型。文本相关性模型量化了召回文档(例如商品的标题)和用户查询的文本匹配程度,保证了基本的排序相关性。文本模型在传统的网页搜索应用中有较长的历史,常见的实现方式是向量空间模型(Vector Space Model,VSM)。向量空间模型将一个文档表示成一维向量,向量的每个单元表示一个词,每个词都赋予一个权重weighti。当用户输入一个查询
[0002]
Q时,系统通过累加匹配上的词权重作为文档的相关性分数:关于词权
重计算有很多种方法,比较经典的是TF(Term Frequency,词频)/IDF(Inverse Document Frequency,逆文档频率),通过TF*IDF来衡量词在文档中的重要性。其中,TF表示词在文档中出现的次数;IDF由总文件数目除以包含该词语文件的数目,再将得到的商取对数得到。现有技术中存在如下几种排序方案:[0005] 对高频查询采取点击反馈,通过直接上提对应查询下点击或者成交最好的商品,这个方法实现简单,但是不利于扩展到中低频查询。
[0006] 通过指向文档的锚文本计算文档关键词的权重,但是目前电子商务搜索中的商品之间是没有相互指向信息的。
[0007] 近几年关于统计语言模型(Statistical Language Model,SLM)应用在信息检索中的研究非常多。SLM是一种概率生成模型,通过对文档或者查询的文档空间进行建模,来
查询似然模描述一个查询或一篇文档由模型生成的能力。目前SLM主要有三种应用形式:
型、文档似然模型和模型比较方法,查询似然模型和文档似然模型分别对应的是文档模型和查询模型,通过不同的角度来丰富相关性的计算,如图1所示,其中:
[0008] 查询似然模型通过概率的方法估计每个文档下词的权重P(t|Document),衡量了每个词在文档中的重要性,t代表词,Document代表文档。P(Query|Document)为该Document生成该Query的概率。Query通常包括一个或多个词,根据该一个或多个词的权重可以得到P(Query|Document)。
[0004] [0009]
文档似然模型可以很好的将用户的操作行为(比如对某一数据对象的点击访问)
和搜索引擎返回的top文档(热点文档,通常指排序位置为前N个的文档)利用起来,也就是业界所说的伪相关(pseudo feedback)反馈。通过统计用户操作的文档可以扩充query
8
CN 104252456 A
说 明 书
2/18页
的文档空间,同时利用引擎返回的top文档来平滑对应的语言模型,形成query的查询模型P(t|Query),这个模型就描述了query对应的词空间。通过计算P(Document|Query)来量化一个文档和查询的相关程度,通俗的理解就是,如果一个文档包含了用户隐含的搜索意图的词,那么这个文档与用户的查询的相关性应该更高。这个模型可以在相关性计算时将文档中重要的信息都利用起来。
[0010] 现有的技术在改进排序相关性方面存在以下的缺点:[0011] 只能覆盖中高频查询,因为中高频查询的数据相对比较丰富,能够获取足够置信度的商品信息,比如点击率,转化率等。但是中高频查询只占整个搜索60%~70%流量,不能覆盖所有流量。
[0012] 只能覆盖部分销量高的商品,一方面因为查询下表现好的普遍销量较高,另一方面上提的商品数量有限。
[0013] 电子商务商品搜索为了分配流量,排序因素中含有下架时间,越靠近下架时间,得分越高。如果采用直接上提查询下表现好的商品就会变成静态的排序,与业务的目标矛盾。[0014] 商品之间是没有链接关系的,所以传统的网页搜索中的锚文本分析不适用于电子商务搜索。发明内容
本申请要解决的技术问题是提供一种权重估计方法、装置和系统,提升信息搜索
时搜索结果的排序效果。
[0016] 为了解决上述问题,本申请提供了一种权重估计方法,包括:[0017] 获取用户行为日志,基于所述用户行为日志获取对象的展现信息、点击信息和成交信息;
[0018] 对所述查询信息按预设规则进行分词,获得分词单元,根据所述分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;
[0019] 根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率;
[0020] 根据所述分词单元的点击率和点击转化率确定所述分词单元的权重,作为该分词单元对应该对象的权重。
[0021] 上述方法还可具有以下特点,所述对象的展现信息包括第一展现集合,为给该对象带来展现的查询信息集合,所述对象的点击信息包括第一点击集合,为给该对象带来点击的查询信息集合,所述对象的成交信息包括第一成交集合,为给该对象带来成交的查询信息集合;
[0022] 所述分词单元的展现信息包括第一展现数,即所述第一展现集合中该分词单元出现的次数,所述分词单元的点击信息包括第一点击数,即所述第一点击集合中该分词单元出现的次数,所述分词单元的成交信息包括第一成交数,即所述第一成交集合中该分词单元出现的次数;
[0015]
所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击
率和点击转化率包括:
[0023]
9
CN 104252456 A[0024]
说 明 书
3/18页
根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点
击率和点击转化率。
[0025] 上述方法还可具有以下特点,所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
[0026]
[0027]
其中,所述N0,N1均大于0,所述thresholdpv1,thresholdclick1均大于等于0。
[0029] 上述方法还可具有以下特点,所述对象的展现信息还包括第二展现集合,为给该对象所属类目带来展现的查询信息集合,所述对象的点击信息还包括第二点击集合,为给该对象所属类目带来点击的查询信息集合,所述对象的成交信息还包括第二成交集合,为给该对象所属类目带来成交的查询信息集合;
[0030] 所述分词单元的展现信息还包括第二展现数,即所述第二展现集合中该分词单元出现的次数,所述分词单元的点击信息还包括第二点击数,即所述第二点击集合中该分词单元出现的次数,所述分词单元的成交信息还包括第二成交数,即所述第二成交集合中该分词单元出现的次数;
[0031] 所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元点击率和点击转化率包括:
[0032] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定所述分词单元的第一点击率和第一点击转化率;根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率;
[0033] 根据所述第一点击率和所述第二点击率确定所述分词单元的点击率;
[0028] [0034]
根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化
率。
上述方法还可具有以下特点,所述根据所述分词单元的第一展现数、第一点击数
和第一成交数确定该分词单元的第一点击率和第一点击转化率包括:
[0035] [0036]
[0037]
10
CN 104252456 A
说 明 书
4/18页
所述根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单
元的第二点击率和第二点击转化率包括:
[0038] [0039]
[0040]
其中,所述N0,N1,N2,N3均大于0,所述thresholapv1,thresholdclick1,
thresholdpv2,thresholdclick2均大于等于0。[0042] 上述方法还可具有以下特点,所述根据所述第一点击率和所述第二点击率确定所述分词单元的点击率包括:
[0043] 所述分词单元的点击率=λ1*第一点击率+(1-λ1)*第二点击率
[0044] 所述根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率包括:
[0045] 所述分词单元的点击转化率=λ2*第一点击转化率+(1-λ2)*第二点击转化率[0046] 其中,0≤λ1≤1,0≤λ2≤1。[0047] 上述方法还可具有以下特点,所述根据所述分词单元的点击率和点击转化率确定所述分词单元的权重包括:[0048] 所述分词单元的权重=
[0049] α*所述分词单元的点击率+(1-α)*所述分词单元的点击转化率[0050] 其中,0≤α≤1。
[0051] 本申请还提供一种权重估计方法,包括:[0052] 获取当前查询信息;
[0053] 对所述当前查询信息按预设规则进行分词,获得所述当前查询信息的一个或多个分词单元;
[0054] 根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重;其中,所述当前查询信息的一个或多个分词单元对应的各对象的权重基于前述方法获取。
[0055] 上述方法还可具有以下特点,每个分词单元还包括一属性,每个属性对应一属性权重;
[0056] 所述根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各
[0041]
11
CN 104252456 A
说 明 书
5/18页
对象的权重包括:
[0057]
其中,所述分词单元i,i=1...k为对所述当前查询信息进行分词获得的分词单
元中与所述对象匹配的k个分词单元,k≥1。[0059] 上述方法还可具有以下特点,对所述对象进行排序,且排序时至少基于所述对象的所述权重。
[0060] 本申请还提供一种权重估计装置,包括第一信息获取单元、第二信息获取单元、分词单元信息处理单元和第一权重估计单元,其中:[0061] 所述第一信息获取单元用于,获取用户行为日志,基于所述用户行为日志获取对象的展现信息、点击信息和成交信息;[0062] 所述第二信息获取单元用于,对所述查询信息按预设规则进行分词,获得分词单元,根据所述分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;
[0058]
所述分词单元信息处理单元用于,根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率;[00] 所述第一权重估计单元用于,根据所述分词单元的点击率和点击转化率确定所述分词单元的权重,作为该分词单元对应该对象的权重。[0065] 上述装置还可具有以下特点,所述第一信息获取单元获取的所述对象的展现信息包括第一展现集合,为给该对象带来展现的查询信息集合,所述对象的点击信息包括第一点击集合,为给该对象带来点击的查询信息集合,所述对象的成交信息包括第一成交集合,为给该对象带来成交的查询信息集合;
[0066] 所述第二信息获取单元获取的所述分词单元的展现信息包括第一展现数,即所述第一展现集合中该分词单元出现的次数,所述分词单元的点击信息包括第一点击数,即所述第一点击集合中该分词单元出现的次数,所述分词单元的成交信息包括第一成交数,即所述第一成交集合中该分词单元出现的次数;
[0067] 所述分词单元信息处理单元根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:[0068] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率。
[0069] 上述装置还可具有以下特点,所述分词单元信息处理单元根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
[0063] [0070]
12
CN 104252456 A[0071]
说 明 书
6/18页
其中,所述N0,N1均大于0,所述thresholdpv1,thresholdclick1均大于等于0。
[0073] 上述装置还可具有以下特点,所述第一信息获取单元获取的所述对象的展现信息还包括第二展现集合,为给该对象所属类目带来展现的查询信息集合,所述对象的点击信息还包括第二点击集合,为给该对象所属类目带来点击的查询信息集合,所述对象的成交信息还包括第二成交集合,为给该对象所属类目带来成交的查询信息集合;
[0074] 所述第二信息获取单元获取的所述分词单元的展现信息还包括第二展现数,即所述第二展现集合中该分词单元出现的次数,所述分词单元的点击信息还包括第二点击数,即所述第二点击集合中该分词单元出现的次数,所述分词单元的成交信息还包括第二成交数,即所述第二成交集合中该分词单元出现的次数;
[0075] 所述分词单元信息处理单元根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元点击率和点击转化率包括:
[0072]
根据所述分词单元的第一展现数、第一点击数和第一成交数确定所述分词单元的
第一点击率和第一点击转化率;根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率;
[0077] 根据所述第一点击率和所述第二点击率确定所述分词单元的点击率;
[0078] 根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率。
[0079] 上述装置还可具有以下特点,所述分词单元信息处理单元根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的第一点击率和第一点击转化率包括:
[0076] [0080]
[0081]
所述分词单元信息处理单元根据所述分词单元的第二展现数、第二点击数和第二
成交数确定所述分词单元的第二点击率和第二点击转化率包括:
[0082] [0083]
13
CN 104252456 A
说 明 书
7/18页
[0084]
其中,所述N0,N1,N2,N3均大于0,所述thresholdpv1,thresholdclick1,
thresholdpv2,thresholdclick2均大于等于0。[0086] 上述装置还可具有以下特点,所述分词单元信息处理单元根据所述第一点击率和所述第二点击率确定所述分词单元的点击率包括:
[0087] 所述分词单元的点击率=λ1*第一点击率+(1-λ1)*第二点击率
[0088] 所述分词单元信息处理单元根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率包括:
[00] 所述分词单元的点击转化率=λ2*第一点击转化率+(1-λ2)*第二点击转化率[0090] 其中,0≤λ1≤1,0≤λ2≤1。[0091] 上述装置还可具有以下特点,所述第一权重估计单元根据所述分词单元的点击率和点击转化率确定所述分词单元的权重包括:[0092] 所述分词单元的权重=
[0093] α*所述分词单元的点击率+(1-α)*所述分词单元的点击转化率[0094] 其中,0≤α≤1。
[0095] 本申请还提供一种权重估计系统,包括:查询信息获取单元、分词处理单元、权重估计装置、第二权重估计单元,其中:[0096] 所述查询信息获取单元用于,获取当前查询信息;[0097] 所述分词处理单元用于,对所述当前查询信息按预设规则进行分词,获得所述当前查询信息的一个或多个分词单元;[0098] 所述权重估计装置用于,获取所述当前查询信息的一个或多个分词单元对应的各对象的权重;
[0085]
所述第二权重估计单元用于,根据所述当前查询信息的一个或多个分词单元对应
的各对象的权重,确定各对象的权重。[0100] 上述系统还可具有以下特点,每个分词单元还包括一属性,每个属性对应一属性权重;
[0101] 所述第二权重估计单元根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重包括:
[0099] [0102]
14
CN 104252456 A
说 明 书
8/18页
其中,所述分词单元,i=1...k为对所述当前查询信息进行分词获得的分词单元
中与所述对象匹配的k个分词单元,k≥1。[0104] 上述系统还可具有以下特点,所述系统还包括排序单元,用于对所述对象进行排序,且排序时至少基于所述对象的所述权重。[0105] 本申请包括以下优点:[0106] 本申请中,根据用户行为日志统计对象中不同词的权重,将排序相关性范围从文本相关性和类目相关性延伸到用户意图相关性,提升了相关性排序的准确度,进而提升了信息搜索的效率。[0107] 当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
[0103]
附图说明
[0108] [0109] [0110] [0111] [0112] [0113]
图1是统计语言模型示意图;
图2是权重估计的数据集合示意图;
图3是本申请实施例分词单元权重估计流程图;图4是本申请实施例排序流程图;
图5是本申请实施例权重估计装置框图;图6是本申请实施例权重估计系统框图。
具体实施方式
[0114] 为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。[0115] 另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0116] 本申请实施例中获取文档中每个词的权重分布,旨在量化一个文档(ITEM)与查询信息(QUERY)的广义相关性P(ITEM|QUERY)。其原理可由下面的公式表示:
[0117]
所述文档可以为某一数据对象,比如网络页面的标题,特别的,可以是某一商品展
示页中商品的标题。
[0119] 在计算相关性时,P(QUERY)是Query的权重,取值范围0~1,认为是对所有的文档都是一样的,所以后验概率的大小决定于分子P(QUERY|ITEM)P(ITEM)。P(ITEM)是文档的先验分布P(ITEM),通常假设是均匀分布即所有文档都一样,那么模型就被简化为求该ITEM生成该Query的概率P(QUERY|ITEM),也就是上文提到过的查询似然模型。为了简化计算,这里使用的是unigram模型(假设词之间是的)表示文档的词空间。查询似然
[0118]
15
CN 104252456 A
说 明 书
9/18页
模型的计算公式如下:
[0120]
wi为QUERY分割得到的各词。
[0122] 假设排序仅考虑上述的一个相关性特征,则最终的排序算分公式可以表示成匹配词的权重累加,系统根据每个文档的得分决定排名。但是实际的排序模型是多特征融合的,由于P(QUERY|ITEM)受QUERY的长度影响,因此,在将根据上式获得的相关性特征与其它特征融合时,需要对该相关性特征进行归一化处理,去除QUERY的长度对该相关性特征的影响,具体归一化处理的方法见后。[0123] 本申请实施例中,将P(ITEM|QUERY)看成是文档在某个查询信息(QUERY)下的点击或者成交概率,P(wi|ITEM)可以视为该文档在特定词wi下的点击或成交概率。为兼顾文档的点击和成交效果,本申请中,将wi的点击权重和成交权重进行结合得到wi的权重,根据wi的权重最终确定文档的权重,具体实现参见下述实施例。[0124] 下述说明中,文档一律以对象来描述。该对象可以是网络页面的标题,特别的,可以是某一商品展示页中商品的标题。[0125] 实施例一
[0126] 本实施例提供一种权重估计方法,包括:[0127] 获取用户行为日志,基于所述用户行为日志获取文档(对象)在每个查询信息下对应的用户的行为信息。比如,文档为商品信息这样的数据对象时,用户的行为信息包括商品在各查询信息下的展现信息、点击信息和成交信息;[0128] 对所述查询信息按预设规则进行分词,获得分词单元,根据所述分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数确定每个分词单元的展现信息、点击信息和成交信息;
[0129] 根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率;
[0130] 根据所述分词单元的点击率和点击转化率确定所述分词单元的权重,作为该分词单元对应该对象的权重。
[0131] 在本实施例的一种备选方案中,所述对象的展现信息包括第一展现集合,为给该对象带来展现的查询信息集合,所述对象的点击信息包括第一点击集合,为给该对象带来点击的查询信息集合,所述对象的成交信息包括第一成交集合,为给该对象带来成交的查询信息集合;
[0121]
所述分词单元的展现信息包括第一展现数,即所述第一展现集合中该分词单元出
现的次数,所述分词单元的点击信息包括第一点击数,即所述第一点击集合中该分词单元出现的次数,所述分词单元的成交信息包括第一成交数,即所述第一成交集合中该分词单元出现的次数;
[0133] 所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
[0134] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率。
[0132]
16
CN 104252456 A[0135]
说 明 书
10/18页
所述根据所述分词单元的展现信息、点击信息和成交信息确定所述分词单元点击
率和点击转化率包括:
[0136] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率。
[0137] 在本实施例的一种备选方案中,根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率包括:
[0138]
[0139]
其中,N0,N1均大于0,thresholdpv1,thresholdclick1均大于等于0。
[0141] 在本实施例的一种备选方案中,所述对象的展现信息还包括第二展现集合,为给该对象所属类目带来展现的查询信息集合,所述对象的点击信息还包括第二点击集合,为给该对象所属类目带来点击的查询信息集合,所述对象的成交信息还包括第二成交集合,为给该对象所属类目带来成交的查询信息集合;
[0142] 所述分词单元的展现信息还包括第二展现数,即所述第二展现集合中该分词单元出现的次数,所述分词单元的点击信息还包括第二点击数,即所述第二点击集合中该分词单元出现的次数,所述分词单元的成交信息还包括第二成交数,即所述第二成交集合中该分词单元出现的次数;
[0143] 所述根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元点击率和点击转化率包括:
[0144] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定所述分词单元的第一点击率和第一点击转化率;根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率;
[0145] 根据所述第一点击率和所述第二点击率确定所述分词单元的点击率;
[0146] 根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率。
[0147] 其中,对象为商品时,对象所属类目可以是该商品所属的最低一级分类。比如,商品为某支铅笔时,其所属类目可以是文具,此时第二展现集合为给文具带来展现的查询信息集合,第二点击集合为给文具带来点击的查询信息集合,第二成交集合为给文具带来成交的查询信息集合。通常,存在多级类目时,取最底层的类目,比如,文具下还存在多种类目时,比如铅笔、圆珠笔等等时,此时该商品所属类目取铅笔,则此时第二展现集合为给铅笔(所有类型的铅笔,包括该商品)带来展现的查询信息集合,第二点击集合为给铅笔带来点
[0140]
17
CN 104252456 A
说 明 书
11/18页
击的查询信息集合,第二成交集合为给铅笔带来成交的查询信息集合。当然,也可以根据需要确定对象所属类目。
[0148] 在本实施例的一种备选方案中,所述根据该分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的第一点击率和第一点击转化率包括:
[0149]
[0150]
所述根据该分词单元的第二展现数、第二点击数和第二成交数确定该分词单元的
第二点击率和第二点击转化率包括:
[0151] [0152]
[0153]
其中,所述N0,N1,N2,N3均大于0,所述thresholdpv1,thresholdclicl1,
thresholdpv2,thresholdclick2均大于等于0。[0155] 在本实施例的一种备选方案中,所述根据所述第一点击率和所述第二点击率确定所述分词单元的点击率包括:
[0154]
所述分词单元的点击率=λ1*第一点击率+(1-λ1)*第二点击率
[0157] 根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率包括:
[0158] 所述分词单元的点击转化率=λ2*第一点击转化率+(1-λ2)*第二点击转化率[0159] 其中,0≤λ1≤1,0≤λ2≤1。[0160] 在本实施例的一种备选方案中,根据所述分词单元的点击率和点击转化率确定所述分词单元的权重包括:
[0161] 所述分词单元的权重=
[0162] α*所述分词单元的点击率+(1-α)*所述分词单元的点击转化率[0163] 其中,0≤α≤1。
[0156]
18
CN 104252456 A[01]
说 明 书
12/18页
实施例二
[0165] 本实施例提供一种权重估计方法,包括:[0166] 获取当前查询信息;
[0167] 对所述当前查询信息按预设规则进行分词,获得所述当前查询信息的一个或多个分词单元;
根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象
的权重;其中,所述当前查询信息的一个或多个分词单元对应的各对象的权重基于实施例一中所述方法获取。
[0169] 在本实施例的一种备选方案中,每个分词单元还包括一属性,每个属性对应一属性权重;
[0170] 根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重包括:
[0168] [0171]
其中,所述分词单元i,i=1...k为对所述查询信息进行分词获得的分词单元中
与所述第一对象匹配的k个分词单元,k≥1。[0173] 在本实施例的一种备选方案中,还包括:对所述对象进行排序,且排序时至少基于所述对象的所述权重。
[0174] 下面以对象为商品为例通过一应用实例对本申请作进一步的说明。[0175] 数据的丰富度和有效性如图2所示,根据图2,可以将模型的参数估计数据分为三层:成交集合,点击集合和展现集合。成交集合是指给商品带来成交的查询集合,点击集合是指给商品带来点击的查询集合,展现集合是指给商品带来展现的查询集合。[0176] 该应用实例中,首先进行分词单元的权重估计,如图3所示,包括:[0177] 步骤301:将N(比如,N=14)天的用户行为日志进行整合,基于用户行为日志获取商品的展现集合ItemDOC1,点击集合ItemDOC2,和成交集合ItemDOC3;以及获取商品所属类目的展现集合CategoryDOC1,点击集合CategoryDOC2,成交集合CategoryDOC3;
[0172]
步骤302,对所有查询按预设规则进行分词,记录每个分词单元及其属性;分词单元的属性可根据需要设定;[0179] 一种分词方式为:比如,用户输入的查询信息为:韩版新款流行春装,则可以进行分词,获得如下分词单元:韩版、新款、流行、春装。分词的具体规则可以根据需要设定,比如按照语法规则,每个词作为一个分词单元。[0180] 其中,一种属性的设定方法为:分词单元包括产品类型词,品牌词,修饰词和其他词四类属性,各属性对应的权重分别为:8,8,4,2。该属性设定方法仅为示例,分词单元的属性分类以及各属性的权重可根据需要设定,本申请对此不作限定。[0181] 步骤303,根据分词单元在商品的展现信息,点击信息和成交信息,以及商品所属的类目的展现信息,点击信息和成交信息中出现的次数统计出每个分词单元的展现信息,
[0178]
19
CN 104252456 A
说 明 书
13/18页
点击信息和成交信息;[0182] 具体的,将分词单元wi在ItemDOC1出现的次数c(wi,ItemDOC1)作为第一展现数;将分词单元wi在ItemDOC2出现的次数c(wi,ItemDOC2)作为第一点击数;将分词单元wi在ItemDOC3出现的次数c(wi,ItemDOC3)作为第一成交数;[0183] 将分词单元wi在CategoryDOC1出现的次数c(wi,CategoryDOC1)作为第二展现数;将分词单元wi在CategoryDOC2出现的次数c(wi,CategoryDOC2)作为第二点击数;将分词单元wi在CategoryDOC3出现的次数c(wi,CategoryDOC3)作为第二成交数;[0184] 步骤304,计算商品维度和类目维度下每个分词单元的CTR和CVR,具体的,根据每个分词单元的展现信息、点击信息和成交信息确定每个分词单元的第一点击率(即商品维度的CTR)P(wi|ITEM)ctr、第一点击转化率(即商品维度的CVR)P(wi|ITEM)第二点击率(即类目维度的CTR)P(wi|Category)ctr、第二点击转化率(即类目维度cvr、
的CVR)P(wi|Category)cvr,可以通过多种方法获取上述P(wi|ITEM)ctr、P(wi|ITEM)cvr、P(wi|Category)ctr和P(wi|Category)cvr,本实施例中,基于折扣平滑方法进行,包括:
[0185]
[0186]
[0187]
[0188]
[01] [0190] [0191] [0192]
或者,
20
CN 104252456 A[0193]
说 明 书
14/18页
其中,c(wi,DOC)表示wi在对应DOC中出现的次数,比如,c(wi,ItemDOC2)表示
wi在ItemDOC2中出现的次数,N0,N1,N2,N3表示折扣基数,且N0,N1,N2,N3均大于0,thresholdpv1,thresholdpv2表示CTR参数估计的最低阈值,均大于等于0,其具体值可以
[0194]
根据需要设定,thresholdclick1,thresholdclick2表示CVR参数估计的最低阈值,均大于等于0,其具体值可根据需要设定。在本申请的一实施例中,thresholdpv1,thresholdpv2可设置为2000,thresholdclick1和thresholdclick2可设置为500。[0195] 步骤305,将商品维度的CTR和CVR与类目维度的CTR和CVR进行结合,获得分词单元的CTR和CVR;[0196] 具体的,根据第一点击率和第二点击率获得分词单元wi的点击率,根据第一点击转化率和第二点击转化率获得分词单元wi的点击转化率,包括:
[0197] P(wi|ITEM)ctr=λ1*P(wi|ITEM)ctr+(1-λ1)*P(wi|Category)ctr[0198] P(wi|ITEM)cvr=λ2*P(wi|ITEM)cvr+(1-λ2)*P(wi|Category)cvr[0199] 其中,λ1,λ2是平滑系数,0≤λ1≤1,0≤λ2≤1,λ1,λ2具体取值可根据需要设定,比如λ1,λ2取值为0.9。[0200] 该步骤中,使用类目维度的CTR和CVR对商品维度的CTR和CVR进行平滑,通过引入类目维度的数据平滑,可以有效的解决一些低展现,低点击商品的词权重估计问题。上式所述平滑方式仅为示例,也可以使用其它方式进行平滑。[0201] 步骤306,将分词单元wi的CTR和CVR进行融合,得到分词单元wi的权重P(wi|ITEM),如下式所示:
[0202] P(wi|ITEM)=α*P(wi|ITEM)ctr+(1-α)*P(wi|ITEM)cvr[0203] 其中,α是平滑系数,0≤α≤1,α具体取值可根据需要设定,比如设置为0.8。上式所述融合方式仅为示例,也可以使用其它方式进行融合。[0204] 对每个商品,都要执行上述步骤101至步骤103,获得分词单元对应该商品的权重,并保存各商品对应的分词单元的权重。不同的商品,其分词单元的权重都要基于该商品的展现集合、点击集合、成交集合,以及该商品所属类目的展现集合、点击集合、成交集合通过上述流程进行计算。计算分词单元的权重后,将其与对应的商品进行关联。[0205] 当然,也可以不计算类目维度的CTR,CVR,则步骤102可以省略,步骤103中,直接使用步骤101中得到的基于商品维度的CTR和CVR计算分词单元的权重。
步骤307,将分词单元的权重和商品进行关联,具体的,将分词单元的权重和标签
(tag)输出到商品的索引中。[0207] 其中,上述步骤可并行处理。[0208] 如图4所示,本实施例提供一种排序方法,包括:[0209] 步骤401,首先进行线下数据处理,从用户行为日志中得到分词单元权重;本实施例中,分词单元为覆盖商品的标题词;具体计算权重的方法参考前述实施例;[0210] 步骤402,将商品标题词的权重信息和商品的索引文件进行合并;[0211] 步骤403,线上排序前,获取用户的查询信息;[0212] 步骤404,计算商品在该查询信息下的权重,具体的,将该查询信息进行分词,获得
[0206]
21
CN 104252456 A
说 明 书
15/18页
分词单元,根据匹配到的分词单元的权重确定商品的权重;[0213] 由于商品权重值需要和其他参数融合,所以需要对输出的权重进行归一,使得权重与查询信息的长度无关。同时因为不同的分词单元的重要性不同,系统在计算时使用的是加权平均,根据分词单元的属性设置不同的权重。商品的权重FeatureScore计算公式如下:
[0214]
其中:
[0216] TermWeightmatch:匹配到的分词单元的权重;[0217] TermTagWeight:分词单元的属性的权重。[0218] 步骤405,根据获取的商品权重计算商品最终的相关性特征,基于相关性特征确定商品的最终排序位置。商品最终排序位置受多个参数影响,步骤404中计算得到的商品权重仅为其中一个参数。[0219] 实施例三
[0220] 本实施例提供一种权重估计装置,如图5所示,该权重估计装置50包括第一信息获取单元501,第二信息获取单元502,分词单元信息处理单元503和第一权重估计单元504,其中:
[0221] 所述第一信息获取单元501用于,获取用户行为日志,基于所述用户行为日志获取对象的展现信息、点击信息和成交信息;[0222] 所述第二信息获取单元502用于,对所述查询信息按预设规则进行分词,获得分词单元,根据所述分词单元在所述对象的展现信息、点击信息和成交信息中出现的次数分别获取每个分词单元的展现信息、点击信息和成交信息;[0223] 所述分词单元信息处理单元503用于,根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率;[0224] 所述第一权重估计单元504用于,根据所述分词单元的点击率和点击转化率确定所述分词单元的权重,作为该分词单元对应该对象的权重。[0225] 在本实施例的一种备选方案中,所述第一信息获取单元501获取的所述对象的展现信息包括第一展现集合,为给该对象带来展现的查询信息集合,所述对象的点击信息包括第一点击集合,为给该对象带来点击的查询信息集合,所述对象的成交信息包括第一成交集合,为给该对象带来成交的查询信息集合;
[0226] 所述第二信息获取单元502获取的所述分词单元的展现信息包括第一展现数,即所述第一展现集合中该分词单元出现的次数,所述分词单元的点击信息包括第一点击数,即所述第一点击集合中该分词单元出现的次数,所述分词单元的成交信息包括第一成交数,即所述第一成交集合中该分词单元出现的次数;
[0227] 所述分词单元信息处理单元503根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:[0228] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的点击率和点击转化率。
[0229] 在本实施例的一种备选方案中,所述分词单元信息处理单元503根据所述分词单
[0215]
22
CN 104252456 A
说 明 书
16/18页
元的展现信息、点击信息和成交信息确定该分词单元的点击率和点击转化率包括:
[0230]
[0231]
其中,所述N0,N1均大于0,所述thresholdpv1,thresholdclick1均大于等于0。[0233] 在本实施例的一种备选方案中,所述第一信息获取单元501获取的所述对象的展现信息还包括第二展现集合,为给该对象所属类目带来展现的查询信息集合,所述对象的点击信息还包括第二点击集合,为给该对象所属类目带来点击的查询信息集合,所述对象的成交信息还包括第二成交集合,为给该对象所属类目带来成交的查询信息集合;
[0234] 所述第二信息获取单元502获取的所述分词单元的展现信息还包括第二展现数,即所述第二展现集合中该分词单元出现的次数,所述分词单元的点击信息还包括第二点击数,即所述第二点击集合中该分词单元出现的次数,所述分词单元的成交信息还包括第二成交数,即所述第二成交集合中该分词单元出现的次数;
[0235] 所述分词单元信息处理单元503根据所述分词单元的展现信息、点击信息和成交信息确定该分词单元点击率和点击转化率包括:[0236] 根据所述分词单元的第一展现数、第一点击数和第一成交数确定所述分词单元的第一点击率和第一点击转化率;根据所述分词单元的第二展现数、第二点击数和第二成交数确定所述分词单元的第二点击率和第二点击转化率;
[0237] 根据所述第一点击率和所述第二点击率确定所述分词单元的点击率;
[0238] 根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率。
[0239] 在本实施例的一种备选方案中,所述分词单元信息处理单元503根据所述分词单元的第一展现数、第一点击数和第一成交数确定该分词单元的第一点击率和第一点击转化率包括:
[0232] [0240]
[0241]
23
CN 104252456 A
说 明 书
17/18页
[0242] [0243]
所述分词单元信息处理单元503根据所述分词单元的第二展现数、第二点击数和
第二成交数确定所述分词单元的第二点击率和第二点击转化率包括:
[0244]
其中,所述N0,N1,N2,N3均大于0,所述thresholdpv1,thresholdclick1,
thresholdpv2,thresholdclick2均大于等于0。[0246] 在本实施例的一种备选方案中,所述分词单元信息处理单元503根据所述第一点击率和所述第二点击率确定所述分词单元的点击率包括:
[0247] 所述分词单元的点击率=λ1*第一点击率+(1-λ1)*第二点击率
[0248] 所述分词单元信息处理单元503根据所述第一点击转化率和所述第二点击转化率确定所述分词单元的点击转化率包括:
[0249] 所述分词单元的点击转化率=λ2*第一点击转化率+(1-λ2)*第二点击转化率[0250] 其中,0≤λ1≤1,0≤λ2≤1。[0251] 在本实施例的一种备选方案中,所述第一权重估计单元504根据所述分词单元的点击率和点击转化率确定所述分词单元的权重包括:[0252] 所述分词单元的权重=
[0253] α*所述分词单元的点击率+(1-α)*所述分词单元的点击转化率
[0245]
其中,0≤α≤1。
[0255] 实施例四
[0256] 本实施例提供一种权重估计系统,如图6所示,包括:查询信息获取单元601、分词处理单元602、权重估计装置50和第二权重估计单元603,其中:[0257] 所述查询信息获取单元601用于,获取当前查询信息;[0258] 所述分词处理单元602用于,对所述当前查询信息按预设规则进行分词,获得所述当前查询信息的一个或多个分词单元;[0259] 所述权重估计装置50用于,获取所述当前查询信息的一个或多个分词单元对应的各对象的权重;
[0260] 所述第二权重估计单元603用于,根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重。
[0254]
24
CN 104252456 A[0261]
说 明 书
18/18页
在本实施例的一种备选方案中,每个分词单元还包括一属性,每个属性对应一属
性权重;
[0262] 所述第二权重估计单元603根据所述当前查询信息的一个或多个分词单元对应的各对象的权重,确定各对象的权重包括:
[0263]
其中,所述分词单元i,i=1...k为对所述当前查询信息进行分词获得的分词单元中与所述对象匹配的k个分词单元,k≥1。[0265] 在本实施例的一种备选方案中,所述系统还包括排序单元604,用于对所述对象进行排序,且排序时至少基于所述对象的所述权重。
[0266] 本申请中利用用户行为数据计算文档与用户查询信息动态相关性,通过搜集用户历史操作行为数据,利用统计语言模型对文档进行建模,用统计方法挖掘出对象在不同关键词下的效果(受用户认可的程度,即在当前关键词搜索条件下符合用户意图的概率),为每个词估计权重,将线上的文本相关性和类目相关性扩展为广义的意图相关性模型,从而提升相关性排序的准确度,以提升信息搜索的效率。
[0267] 本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不于任何特定形式的硬件和软件的结合。
[02]
25
CN 104252456 A
说 明 书 附 图
图1
图2
26
1/3页
CN 104252456 A
说 明 书 附 图
2/3页
图3
图4
27
CN 104252456 A
说 明 书 附 图
3/3页
图5
28
图6
因篇幅问题不能全部显示,请点此查看更多更全内容