该专利于2014年4月首次提交,并于2017年10月被谷歌以新名称重新注册。它描述了 Google 如何使用置信度分数来确定搜索查询中的实体层次结构。
为了确定搜索查询中实体的相关性,Google 可以使用置信度得分
该方法可以包括识别搜索查询的实体的属性。该方法可以包括数据处理系统确定内容选择标准的实体的属性与搜索查询的实体的属性之间的匹配。该方法可以包括数据处理系统根据匹配度和置信度分数选择内容项作为在用户设备上显示的候选。来源:
根据此置信度分数,然后确定哪个是搜索查询中的主要实体,并据此确定适合 SERP 的文档。实体属性也可以通过查询图或内容选择标准图纳入选择过程。
将实体与搜索查询关联
该项专利于 2016 年授予谷歌。它是关于如何在搜索查询中识别实体,或者 Google 如何识别它是一个带有实体引用的搜索查询。该专利还有另一个版本,发布于 2013 年。
该专利描述了以下工艺步骤:
接收搜索查询
识别与搜索词相关的实体
提供实体摘要,以便可以根据搜索查询显示适当的结果。摘要包含有关实体的相关信息和可选的附加搜索查询。
识别可选的实体搜索查询并将其链接到所选选项。 (更多内容请参阅专利...)
识别与实体或实体匹配的文档
从选定的文档中识别其他实体
将实体与搜索查询连接起来
确定实体的排名
根据组合查询提供搜索结果
该专利由谷歌于 2012 年签署,并于 2021 年 5 月以更新形 贷款数据库 式重新发布。它将持续到 2035 年。该专利描述了返回包含至少两个相互关联的实体的搜索查询的搜索结果的过程。例如,这样的搜索查询可以是“银行附近的日本餐厅”。该搜索查询背后的搜索意图可能是用户想要在访问之前或之后光顾一家日本餐厅并路过一家银行。
另一个搜索查询可能是“经济危机期间破产的银行”。与之前的搜索查询不同,这不是关于实体之间的空间关系,而是关于实体之间的时间关系。
搜索查询也可能更复杂,并包含两个以上的实体。
只有知识图谱中收集的数据才能回答这种复杂的搜索查询。利用边描述的关系信息,可以在不同实体之间建立无数个连接。 SQL 等经典表格数据库无法有意义地回答此类搜索查询。
搜索查询的语义丰富
来源:面向实体的搜索,Krisztian Balog
对于 Google 来说,从搜索查询中解释相关实体并不总是那么容易。在这里,搜索查询可以在后台自动丰富额外的语义信息或注释,或者通过自动建议向用户建议。搜索查询和实体的匹配不再仅仅基于输入的文本,还考虑实体和属性之间的语义关系。
以下示例搜索实体“Ann Dunham”。纯粹基于术语的搜索引擎无法回答“奥巴马的父母”的搜索查询。通过基于词和基于实体的搜索的交互,搜索引擎可以返回答案“Ann Dunham”作为母亲。
来源:面向实体的搜索,Krisztian Balog
实际上,结果是这样的。除了母亲安·邓纳姆外,父亲巴拉克·侯赛因·奥巴马的第二个通缉对象以及巴拉克·奥巴马的知识面板也被发布。显示巴拉克·奥巴马的知识面板是因为系统对搜索查询中的“巴拉克·奥巴马”一词做出了响应。另外两个实体框是根据知识图谱中的附加语义信息输出的。
这种双重系统在解释搜索查询时的实用性在于,如果搜索词中未搜索任何实体,也可以返回结果。
除了基于实体的搜索查询解释之外,基于术语的方法还可以通过基于实体类型的方法来支持。这与从类型类中搜索多个实体的搜索查询相关,例如“汉诺威的景点”。将显示一个列出多个实体的框。
通常,与实体类型相关的搜索查询将返回当前最相关的实体、轮播或上述类型的知识图框。在这些框中,将根据与搜索查询相关的权重显示最相关的实体。与文档类似,Google 可以使用向量空间分析(例如Word2Vec)来确定实体与搜索查询的接近度或相关性。搜索查询向量与实体向量之间的角度越小,术语和实体就越相关或者越接近。