Google搜索引擎升級了 智慧「BERT」解決一句話的指令
Google以往的搜索器是以「關鍵詞」、「單字」、「詞彙」的方式來開啟搜索連結,這樣的方式其實很容易誤會了搜索者的意思,例如一長串的句子,Google引擎只會針對名詞來搜索,卻忽略動詞的重要性,因此常常要花費大量的時間來找到真正需要的結果。
Google在25日宣布,將開始使用在其研究實驗室開發的名為「BERT」的人工智慧系統,將擅長理解語言的流暢度,改善用戶在輸入查詢時的結果,目前正針對英語推出,未來也會拓展到其他語言。
根據外媒報導,Google副總裁潘都納亞克(Pandu Nayak)表示,Google的舊式搜索技術會將查詢視為「一句話」,它丟棄了大量有關單詞「順序」的信息,並只考慮它認為哪些單詞很重要。這並不總是很好,因為順序訊息通常很重要。
例如在Google搜索:內布拉斯加州以南的州,則Google可能會建議用戶:南內布拉斯加州的維基百科頁面,但其實應該要出現的結果是堪薩斯州。這樣的例子在以往層出不窮,明顯誤會了搜索者的意思。
事實上,BERT是Google於2018年推出的開源軟體,以便其他開發人員可以使用它,它與Google搜索引擎完全不同,因為它可以同時查看大量文本,並考慮每個單詞與句子中其他單詞的關係,以及其他單詞是否在其中。
Google AI高級副總裁Jeff Dean解釋,BERT實質上是通過玩遊戲來學習語言的,工程師通過向AI模型輸入各種段落來訓練它,其中10%到15%的單詞被隨機刪除,讓它猜出需要填寫什麼,有點像Mad Libs的AI版本。
Google用神經網絡技術BERT來改善自家搜尋品質,英文自然語言搜尋品質能提高1成
Google宣佈以AI技術BERT,來提升對話式查詢(conversationl queries)的搜尋結果品質和相關性,讓Google Search向自然語言搜尋更進一步。
Google雖然是搜尋巨人,過去也努力改進對用戶搜尋語言的理解能力,但也坦承有時仍然會出錯,尤其碰上較複雜或對話式查詢時,人們還是得輸入一長串個別關鍵字,而無法運用自然語言進行搜尋,。但Google最近引用了機器學習技術,可望改善它的搜尋理解能力。
去年底Google推出並開源一項自然語言處理(NLP)預訓練的神經網路技術BERT(bidirectional encoder representation from Transformer)。和傳統技術相較,BERT會考慮關鍵字的上、下文以理解意義。而且BERT發展成的模型複雜度之高,讓其運算量超過傳統硬體,迫使Google還必須用最新的Cloud TPU來跑搜尋引擎。
最近Google將BERT模型,同時運用在Google Search的排序和精選摘要(Featured Snippets),以便提升搜尋結果相關性。事實上,Google評估BERT可以提升它對1/10美式英語查詢輸入的理解能力,並表示日後會用於改善其他地區和語言搜尋。
Google搜尋院士Pandu Nayak說,運用BERT的成效反映在對話式或是包含較多to及for等介系詞的長字串查詢上。例如「2019 brazil traverler to usa need a visa」搜尋句當中,「to」是很關鍵的,決定了是從巴西到美國旅客才需要簽證。但以前Google的演算法會忽略「to」,而回傳從美國公民到巴西旅客的資訊。BERT更能理解to的意義,進而提高搜尋結果相關性。又如在「do estheticians stand a lot at work」一例中,過去系統以字詞比對方式,會搜尋出有「stand along」的字句。但BERT模型就能理解,此句在上下文的意思中表示,美容專家需要經常站著工作。
此外,Google指出,BERT學習力之強大,也能用在其他語言的搜尋服務上,例如現在Google也將BERT模型套用在其他12國,包括韓文、北印度語及葡萄牙語地區的精選摘要。
但BERT仍然會犯錯,如果使用者想查內布拉斯加州以南是什麼州(what state is south of Nebraska),BERT會回傳一個位於佛州名為South Nebraska的社區。Google說這也是驅策他們持續改進的動力。
