我们围绕主题建模开展的一些工作,特别是使用了一种名为 LDA(潜在狄利克雷分配)的方法,已经取得了一些令人惊讶的出色成果。这让我(我想很多参加上周二 Ben 演讲的人也一样)开始思考,我们是否只是对“相关性”或“关键词使用”概念的简单应用,才导致了这种带有偏见的观点。
有些查询非常简单——例如搜索
wikipedia”,它没有任何歧义,直 电话号码收集 接明了,即使是非常基础的网络搜索引擎也能快速返回结果。但有些搜索就没那么简单了。让我们来看看搜索引擎如何对两个结果进行排序——大多数情况下,这是一个简单的问题,但根据具体情况,它可能变得有些复杂
对于复杂的查询
或者当搜索结果中包含大量与内容相关 设定面试过程中的期望 的信号时,搜索引擎需要一些方法来判断特定页面的意图。仅仅因为某个页面在显眼的位置提到了四五次关键词,甚至提到了类似的短语/同义词,并不一定意味着它与搜索者的查询真正相关。
历史上,许多 SEO 人员都在这个过程中付出了努力,所以我们在这里所做的并非革命性的,而且主题模型(包括 LDA)已经存在很长时间了。然而,据我们所知,该领域还没有人公开过主题建模系统,也没有人将其输出与 Google 排名进行比较(以帮助了解这些信号的潜在影响力)。Ben 所展示的工作,以及真正令人兴奋的部分(在我看来),就在于这些数字。
术语向量空间和主题建模
词向量空间、主题建模和余弦相似度听 WhatsApp 数据库印度 起来像是一个很难理解的概念,当 Ben 第一次在台上提到它们时,很多与会者(包括我自己)都感到有些茫然。不过,Ben(以及Will Critchlow,
在这个假想的例子中,英语中的每个单词都与“猫”或“狗”相关,这两个词是唯一可用的主题。为了衡量一个词是否与“狗”更相关,我们使用一个向量空间模型,该模型以数学方式创建了这些关系。上图很好地展现了我们这个简单的世界。像“大脚怪”这样的词恰好处于中间位置,