Google和幼兒有什么共同之處?兩者都需要學習良好的聆聽技巧
Google和幼兒有什么共同之處?兩者都需要學習良好的聆聽技巧
投稿人和專利探險家戴夫戴維斯回顧了最近發(fā)表的一篇文章,該文章建議谷歌將實體分組并利用他們的關(guān)系來傾聽更好的多部分問題答案。
在第六屆學習代表國際會議上,Google AI的研究人員Jannis Bulian和Neil Houlsby 發(fā)表了一篇論文,闡述了他們正在測試的改進搜索結(jié)果的新方法。
雖然發(fā)表論文當然不意味著這些方法正在被使用,甚至會被使用,但當結(jié)果非常成功時,這可能會增加可能性。當這些方法與谷歌正在采取的其他行動相結(jié)合時,幾乎可以肯定。
我相信這種情況正在發(fā)生,而這些變化對于優(yōu)化專家(優(yōu)化)和內(nèi)容創(chuàng)建者來說意義重大。
發(fā)生什么了?
讓我們從基礎(chǔ)開始,并且看看正在討論的內(nèi)容。
據(jù)說一張圖片勝過千言萬語,所以讓我們從紙張的主要圖像開始。

這張圖片絕對不值一千字。事實上,沒有這些字眼,你可能很迷茫。您可能想像一個搜索系統(tǒng)看起來更像是:

在最基本的形式中,搜索系統(tǒng)是:
- 用戶提出問題。
- 搜索算法解釋問題。
- 算法應用于索引數(shù)據(jù),并提供答案。
我們在第一張圖片中看到的,它說明了論文中討論的方法,卻有很大的不同。
在中間階段,我們看到兩部分:重構(gòu)和總結(jié)?;旧希@個新流程發(fā)生的是:
- 用戶向積極提問問題(AQA)代理的“重新配置”部分提出問題。
- “重構(gòu)”階段帶著這個問題,并且使用下面討論的各種方法創(chuàng)造一系列新問題。
- 這些問題中的每一個都被發(fā)送到“環(huán)境”(我們可以松散地將其視為核心算法,就像您今天會想到的那樣)以獲得答案。
- 每個生成的查詢的答案在“Aggregate”階段提供給AQA。
- 獲勝的答案被選擇并提供給用戶。
看起來很簡單,對吧?這里唯一真正的區(qū)別是產(chǎn)生多個問題和一個系統(tǒng),找出哪個是最好的,然后提供給用戶。
哎呀,有人可能會爭辯說,這是已經(jīng)發(fā)生的算法評估一些網(wǎng)站,并共同努力找出查詢的最佳匹配。輕微的扭曲,但沒有革命性的,對嗎?
錯誤。這篇論文和方法還有很多不僅僅是這張圖片。所以讓我們繼續(xù)前進?,F(xiàn)在是時候添加一些...

機器學習
這種方法的真正威力來自于機器學習的應用。以下是我們需要詢問的有關(guān)初始故障的問題:
系統(tǒng)如何從各種問題中進行選擇?
哪個問題產(chǎn)生了最佳答案?
這是它變得非常有趣的地方,結(jié)果令人著迷。
在他們的測試中,布魯恩和豪爾斯比開始了一系列“危險!”的問題(如果你看節(jié)目,你就知道這些問題真的是答案)。
他們這樣做是為了模擬人腦需要推斷正確或錯誤反應的場景。
如果您對游戲節(jié)目“Jeopardy!”不熟悉,請點擊此處快速剪輯以幫助您了解“問題/答案”概念:
從論文:面對復雜的信息需求,人們通過重新構(gòu)建問題,發(fā)布多次搜索和匯總響應來克服不確定性。受到人類提出正確問題的能力的啟發(fā),我們向?qū)W員展示學習如何為用戶執(zhí)行此過程。
這是算法提出的“危險!”問題/答案之一。我們可以看到問題如何轉(zhuǎn)化為查詢字符串:
旅行似乎不是這個巫師和一次性外科醫(yī)生的問題; 星界投影和傳送是沒有問題的。
這不是一個容易回答的問題,因為它需要收集各種數(shù)據(jù),并且還要解釋自己經(jīng)常隱晦的問題的格式和背景。事實上,沒有人發(fā)布“危險!” - 就像問題一樣,我不認為Google目前的算法能夠返回正確的結(jié)果,這正是他們正在尋求解決的問題。
Bulian和Houlsby用“Jeopardy!”編寫了他們的算法 - 就像問題一樣,并將一個成功的答案計算為給出正確或錯誤答案的答案。該算法是從來沒有意識到的,為什么一個答案是正確的還是錯誤的,所以它沒有給出任何其他信息來處理。
由于缺乏反饋,算法無法通過任何其他方式學習成功指標,而不是獲得正確答案。這就像在一個類似于現(xiàn)實世界的黑盒子里學習一樣。
他們從哪里得到問題?
測試中使用的問題來自哪里?他們被送到Reformulate階段的“用戶”。一旦問題被添加,流程:
- 從查詢中刪除了停用詞。
- 將查詢置為小寫。
- 添加了wh-短語(誰,什么,何地,何時,為什么)。
- 增加了釋義的可能性。
對于釋義,該系統(tǒng)使用聯(lián)合國平行語料庫,該語料庫基本上包含1100多萬個與六種語言完全一致的短語。他們制作了各種英文到英文的翻譯器,可以調(diào)整查詢但保持上下文。
結(jié)果
所以這就是所有這一切降落我們的地方:

訓練完系統(tǒng)后,結(jié)果非常壯觀。他們開發(fā)和訓練的系統(tǒng)擊敗了所有變體并大幅提高了性能。事實上,做得更好的唯一系統(tǒng)是人類。
以下是最終生成的查詢類型的一小部分示例:

他們所開發(fā)的系統(tǒng)能夠準確地理解復雜而復雜的問題,并通過訓練以驚人的準確度產(chǎn)生正確答案。
那么,戴夫?這對我有什么幫助?
你可能會問為什么這很重要。畢竟,在搜索和持續(xù)改進方面不斷發(fā)展。為什么這會有什么不同?
最大的區(qū)別是它對搜索結(jié)果意味著什么。谷歌最近還發(fā)布了一份ICLR會議的文件,建議Google可以根據(jù)其他內(nèi)容制作者提供的數(shù)據(jù)制作自己的內(nèi)容。
我們都知道,僅僅因為寫了一篇論文,并不意味著搜索引擎實際上正在實施這個概念,但讓我們暫停一下,以便了解以下情況:
- Google有能力提供自己的內(nèi)容,而且內(nèi)容寫得很好。
- Google對確定正確答案的能力非常有信心。事實上,通過調(diào)整其功能,它可能會超越人類。
- Google有多個例子可以讓用戶留在自己的網(wǎng)站上,并通過點擊布局和內(nèi)容更改的搜索結(jié)果。
隨著這一切堆積如山,我們需要問:
- 這會影響搜索結(jié)果嗎?(它可能會。)
- 它會阻礙網(wǎng)站管理員的內(nèi)容制作工作嗎?
- 它會限制我們的內(nèi)容向更大的公眾傳播嗎?
再次,僅僅因為論文被發(fā)表,并不意味著內(nèi)容將被實施; 但谷歌是獲得的在超過人體的方式與語言理解復雜的細微差別的能力。Google也有興趣讓用戶留在谷歌地產(chǎn)上,因為在一天結(jié)束時,他們首先是一家出版公司。
你能做什么?
你做同樣的事情,你一直做。推銷您的網(wǎng)站。
無論您是優(yōu)化進入有機結(jié)果的前10名還是優(yōu)化語音搜索或虛擬現(xiàn)實,都會銷售相同數(shù)量的藍色小部件。你只需要適應,因為搜索引擎結(jié)果頁面(SERP)變化很快。
我們在這里看到的方法提出了一個重要的主題,每個對優(yōu)化(優(yōu)化)感興趣的人都應該密切關(guān)注,這就是實體的使用。
如果您查看由Bulian和Houlsby創(chuàng)建的系統(tǒng)生成的以上查詢集,您會注意到一般情況下,越精確地理解實體之間的關(guān)系,答案就越好。
事實上,具體措辭是無關(guān)緊要的。完全部署后,系統(tǒng)不需要使用您或我理解的文字。值得慶幸的是,它們使我們能夠看到,通過將實體及其關(guān)系進行分組,使得以這些關(guān)系為基礎(chǔ)的答案更加可靠,可以實現(xiàn)成功。
如果你只是理解實體,那么這里有一段介紹概念和涵義的內(nèi)容。我保證你很快就會看到它們之間的聯(lián)系,而當我們進入下一代搜索領(lǐng)域時,你需要關(guān)注這個領(lǐng)域。