国产精品一线二线三线精华液 ,亚洲一区天堂午夜,中文字幕丝袜无码一区二区

實習(xí)生留給谷歌地圖的算法被完善，可識別800億街景圖文字

科技 admin 0評論 2017-05-05 15:17:30
收藏 | 點贊
  
本文首發(fā)于大數(shù)據(jù)文摘微信公眾平臺（ID：BigDataDigest），轉(zhuǎn)載請注明來源，翻譯姜范波 Aileen。
導(dǎo)讀：
2014年，還在谷歌做暑期實習(xí)生的Ian Goodfellow開發(fā)實施了閱讀街景圖中路標(biāo)的數(shù)字的方法。如今，新的一群谷歌實習(xí)生借助深度學(xué)習(xí)和TPU的強大運算能力完善了大神當(dāng)年的算法。
新的機器學(xué)習(xí)框架下，谷歌地圖可以準(zhǔn)確識別超過800億戰(zhàn)的街景視圖圖片中的文字， 為十多億谷歌地圖用戶創(chuàng)造更好的體驗。
Ian Goodfellow自己也發(fā)推特支持谷歌地圖新算法，緬懷當(dāng)年自己做實習(xí)生的創(chuàng)作 。
識別并提取圖片有效信息是谷歌地圖發(fā)展的新方向之一 
谷歌地圖每天都會向數(shù)百萬人提供有用的向?qū)?、實時交通信息和商業(yè)信息。為了提供最好的用戶體驗，這些信息必須不斷地反映持續(xù)變化的世界。雖然街景汽車每天收集數(shù)百萬張圖片，但是無法手動分析迄今為止收集的超過800億張高分辨率圖片，以便為谷歌地圖找到新的或更新的信息。Google地面實況團隊（Ground Truth team）的目標(biāo)之一是使我們可以自動從含有地理位置信息的圖片中提取信息，從而改進谷歌地圖。
在《從街景圖片中提取基于注意力的結(jié)構(gòu)化信息》論文中，我們描述了在許多國家使用深度神經(jīng)網(wǎng)絡(luò)自動地從非常具有挑戰(zhàn)性的街景圖片中準(zhǔn)確讀取街道名稱的方法。我們的算法在具有挑戰(zhàn)性的法國街頭標(biāo)志（FSNS）數(shù)據(jù)集上實現(xiàn)了84.2％的準(zhǔn)確性，顯著優(yōu)于以前的最先進的系統(tǒng)。重要的是，我們的系統(tǒng)很容易擴展，以便從街景圖片中提取其他類型的信息，現(xiàn)在，它可以幫助我們從商店門面圖片中自動提取商店名稱。 我們很激動地宣布，這個模型現(xiàn)在是開源的！
來自FSNS數(shù)據(jù)集的街道名稱示例，由我們的系統(tǒng)正確標(biāo)記。同一個標(biāo)識最多提供四個視圖。
自然環(huán)境中的文本識別是一個具有挑戰(zhàn)性的計算機視覺和機器學(xué)習(xí)問題。雖然傳統(tǒng)的光學(xué)字符識別（OCR）系統(tǒng)主要集中在從掃描的文檔中提取文本，但是由于自然場景獲取的文本存在視覺偽像（如失真，遮擋，方向模糊，雜亂的背景或不同的視角）而更具挑戰(zhàn)性。解決這一研究挑戰(zhàn)的努力源自2008年，當(dāng)時我們使用神經(jīng)網(wǎng)絡(luò)來模糊掉街景圖片中的面孔和車牌，以保護用戶的隱私。從這個初步研究中，我們意識到，使用足夠多的帶標(biāo)簽的數(shù)據(jù)，我們不僅可以使用機器學(xué)習(xí)來保護用戶的隱私，還可以通過獲取最新的相關(guān)信息來自動改進谷歌地圖。
實習(xí)生牽起街景數(shù)字?jǐn)?shù)據(jù)集閱讀方法項目 
2014年，谷歌的地面實況小組發(fā)布了最新的街景數(shù)字（SVHN）數(shù)據(jù)集閱讀方法，該方法由當(dāng)時的暑期實習(xí)生（現(xiàn)為Google員工）Ian Goodfellow實施。這項工作不僅具有學(xué)術(shù)意義，而且對制作更為準(zhǔn)確的谷歌地圖至關(guān)重要。今天，全球有三分之一以上的地址由于采用了這一系統(tǒng)而得到改進。在一些國家，如巴西，該算法已經(jīng)改善了谷歌地圖中90％以上的地址，大大提高了我們地圖的可用性。
理所當(dāng)然地，下一個步驟是將這些技術(shù)擴展到街道名稱。為了解決這個問題，我們創(chuàng)建并發(fā)布了法國街名標(biāo)志數(shù)據(jù)集（FSNS），這是一個超過100萬個街道名稱的大型訓(xùn)練數(shù)據(jù)集。FSNS數(shù)據(jù)集是一項多年努力，旨在允許任何人在具有挑戰(zhàn)性和真實用途的情況下改進其OCR模型。FSNS數(shù)據(jù)集比SVHN大得多，更具挑戰(zhàn)性，因為對街道標(biāo)志的準(zhǔn)確識別可能需要組合許多不同圖片的信息。
這些是由我們的系統(tǒng)通過選擇，或結(jié)合對圖片的理解而正確標(biāo)記的具有挑戰(zhàn)性的標(biāo)識示例。 第二個例子本身是極具挑戰(zhàn)性的，但該模型在之前學(xué)習(xí)了一種語言模型，使之能夠消除模糊性并正確閱讀街道名稱。 
通過這個訓(xùn)練集，谷歌實習(xí)生Zbigniew Wojna 2016年花了一個暑假，開發(fā)了一個深度學(xué)習(xí)模型架構(gòu)，自動標(biāo)注了新的街景圖片。 我們的新模型有一個非常有意思的優(yōu)點，它可以將文本標(biāo)準(zhǔn)化，與我們的命名習(xí)慣保持一致，并且可以忽略無關(guān)的外部文本。
在這個例子中，模型并沒有被混淆，因為有兩個街道名稱，正確地將“Av”標(biāo)準(zhǔn)化為“Avenue”，并正確地忽略了數(shù)字“1600”。
項目觸角仍在不斷延伸中 
雖然這個模型是準(zhǔn)確的，但確實顯示了15.8％的錯誤率。然而，在分析錯誤案例后，我們發(fā)現(xiàn)其中48％是由于地面實況錯誤，突出表明該模型與標(biāo)簽質(zhì)量相一致。（對錯誤率的完整分析可以在我們的論文中找到）。
這個新系統(tǒng)與提取街道號碼的系統(tǒng)相結(jié)合，使我們能夠直接從圖片創(chuàng)建新的地址，我們以前不知道街道的名稱或地址的位置?，F(xiàn)在，只要街景汽車在新建的道路上行駛，我們的系統(tǒng)就可以分析成千上萬的被捕獲的圖片，提取街道名稱和數(shù)字，并在谷歌地圖上自動正確創(chuàng)建和定位新地址。
但是，自動創(chuàng)建谷歌地圖的地址是不夠的——我們還希望能夠通過店鋪名稱為商家提供導(dǎo)航。在2015年，我們發(fā)表了《街景圖片大規(guī)模發(fā)現(xiàn)商家》的文章，提出了一種在街景圖片中準(zhǔn)確識別商店店面標(biāo)志的方法。然而，一旦檢測到商店門面，仍然需要準(zhǔn)確地提取其名稱以供使用——模型必須確定哪個文本是商家名稱，哪個文本是不相關(guān)的。我們將其稱為從圖片中提取“結(jié)構(gòu)化文本”。它不僅僅是文本，它還是附有語義的文本。
使用不同的訓(xùn)練數(shù)據(jù)，用于讀取街道名稱的模型架構(gòu)也可用于從商家外觀圖片中精確地提取商家名稱。在這種特殊情況下，我們能夠僅僅提取商家名稱，來驗證谷歌地圖中是否已經(jīng)存在該商家，從而使我們能夠獲得更準(zhǔn)確和最新的商家列表。
缺失位置信息的情況下，系統(tǒng)能夠預(yù)測圖片中商店的名稱為“Zelina Pneus”。 模型沒有被商店所賣的輪胎品牌(Firestone)所迷惑。
在超過800億的街景視圖圖片中應(yīng)用這些大型模型需要大量的計算能力。 這就是為什么地面實況團隊是今年早些時候宣布的谷歌 TPU的第一個用戶，這樣大大降低了我們的計算成本。
人們依靠谷歌地圖的準(zhǔn)確性來獲得幫助。 在保持谷歌地圖與城市不斷變化的環(huán)境保持一致的同時，道路和商家提出了一個遠未解決的技術(shù)挑戰(zhàn)，地面實況團隊的目標(biāo)是推動機器學(xué)習(xí)中的劃時代的創(chuàng)新， 為十多億谷歌地圖用戶創(chuàng)造更好的體驗。
0 條評論
實習(xí)生留給谷歌地圖的算法被完善，可識別800億街景圖文字

識別并提取圖片有效信息是谷歌地圖發(fā)展的新方向之一

實習(xí)生牽起街景數(shù)字?jǐn)?shù)據(jù)集閱讀方法項目

項目觸角仍在不斷延伸中

實習(xí)生留給谷歌地圖的算法被完善，可識別800億街景圖文字