搜狗獲ICPR 2020人臉關(guān)鍵點(diǎn)檢測(cè)挑戰(zhàn)賽冠軍

        北國(guó)網(wǎng) 2020-10-26 14:52:25

        作為3D 人臉重建、人臉識(shí)別、表情遷移及美化等應(yīng)用的核心基礎(chǔ)技術(shù),人臉關(guān)鍵點(diǎn)檢測(cè)算法一直是工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。

        近日,在第25屆國(guó)際模式識(shí)別大會(huì)(ICPR 2020)舉辦的人臉106關(guān)鍵點(diǎn)檢測(cè)挑戰(zhàn)賽中,搜狗AI團(tuán)隊(duì)榮獲冠軍,彰顯其在計(jì)算機(jī)視覺領(lǐng)域的核心技術(shù)實(shí)力。

        ICPR 2020大會(huì)是模式識(shí)別領(lǐng)域的頂級(jí)國(guó)際會(huì)議,由國(guó)際權(quán)威學(xué)術(shù)組織---國(guó)際模式識(shí)別協(xié)會(huì)(The International Association for Pattern Recognition,IAPR)主辦,在本屆大會(huì)組織的人臉識(shí)別領(lǐng)域競(jìng)賽單元-人臉106關(guān)鍵點(diǎn)檢測(cè)比賽中,搜狗AI 團(tuán)隊(duì)在預(yù)賽驗(yàn)證和決賽測(cè)試兩階段均取得第一,擊敗OPPO研究院、美團(tuán)視覺中心、東南大學(xué)、西安交大等多支強(qiáng)隊(duì),最終一舉摘得桂冠。

        圖1 本屆挑戰(zhàn)賽決賽階段前五名結(jié)果

        ICPR人臉106關(guān)鍵點(diǎn)檢測(cè)挑戰(zhàn)賽是什么?

        人臉關(guān)鍵點(diǎn)檢測(cè)算法的研究重點(diǎn)是在不同表情、性別、年齡、姿態(tài)、光照條件下,準(zhǔn)確定位人臉輪廓及五官關(guān)鍵點(diǎn),近年來(lái)偏向?qū)嵱玫娜四橁P(guān)鍵點(diǎn)檢測(cè)的國(guó)際評(píng)測(cè)陸續(xù)舉辦,國(guó)際頂級(jí)計(jì)算機(jī)會(huì)議ICME 2019就曾舉辦人臉關(guān)鍵點(diǎn)檢測(cè)的比賽。

        人臉106關(guān)鍵點(diǎn)檢測(cè)挑戰(zhàn)賽(Grand Challenge of 106-p Facial Landmark Localization)是ICPR 2020舉辦的八項(xiàng)比賽之一,相較于之前的評(píng)測(cè),本次ICPR 2020大會(huì)舉辦的評(píng)測(cè)難度更大。其測(cè)試樣本涵蓋大姿態(tài)、極端表情、遮擋等多種高難度、復(fù)雜的情況,且訓(xùn)練樣本少,對(duì)算法的泛化能力、準(zhǔn)確性及魯棒性等多個(gè)方面提出了巨大的挑戰(zhàn),在比拼檢測(cè)精度的同時(shí),更加追求技術(shù)的實(shí)用化程度,對(duì)模型復(fù)雜度做了更加嚴(yán)格的要求,模型大小需要低于20 MB,運(yùn)算復(fù)雜度不超過(guò) 1GFLOPs,希望推動(dòng)更加高效并且魯棒的輕量級(jí)人臉關(guān)鍵點(diǎn)檢測(cè)算法的技術(shù)進(jìn)步,因此極富學(xué)術(shù)和實(shí)用價(jià)值,吸引了數(shù)十家企業(yè)和高校的參賽隊(duì)伍參賽。

        圖2 本屆比賽數(shù)據(jù)集圖片樣例

        搜狗本屆比賽奪冠的技術(shù)優(yōu)勢(shì)是什么?

        作為本屆賽事的冠軍隊(duì)伍,搜狗AI團(tuán)隊(duì)在人臉關(guān)鍵點(diǎn)檢測(cè)技術(shù)上有三個(gè)重要突破。

        首先,采用基于HRNet基礎(chǔ)模型的改進(jìn)版本,利用不同分辨率之間特征全融合的方式,有效學(xué)習(xí)不同尺度圖像的語(yǔ)義信息,同時(shí)為了保證算法的精度,搜狗增加了HRNet不同分辨率分支的通道數(shù),從而在人臉關(guān)鍵點(diǎn)檢測(cè)任務(wù)上表現(xiàn)出了出色的效果;

        圖3 使用的HRnet網(wǎng)絡(luò)結(jié)構(gòu)

        其次,在卷積層部分采用組卷積,并且把其中的瓶頸層(BottleNeck)改換為MobileNet V2中的逆殘差結(jié)構(gòu)(Inverted Residuals),設(shè)置逆殘差結(jié)構(gòu)的擴(kuò)展參數(shù)為1,從而有效的降低了模型的復(fù)雜度;經(jīng)典殘差結(jié)構(gòu):1x1(壓縮)->3x3(卷積)->1x1(升維),逆殘差結(jié)構(gòu):1x1(升維)->3x3(dw conv+relu)->1x1(降維+線性變換),這對(duì)基于移動(dòng)端設(shè)計(jì)的小模型有廣泛的效果提升作用。

        圖4 殘差結(jié)構(gòu)圖

        最后,除了使用常規(guī)的平移、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)策略,還使用了PDB(Pose-based Data Balancing)策略。該策略統(tǒng)計(jì)訓(xùn)練數(shù)據(jù)集中的不同姿態(tài)的圖片的數(shù)量,然后通過(guò)簡(jiǎn)單的復(fù)制數(shù)量較少的姿態(tài)的圖片,從而解決了不同的姿態(tài)的數(shù)據(jù)不均衡的問(wèn)題,對(duì)大姿態(tài)下關(guān)鍵點(diǎn)的預(yù)測(cè)起到有效的作用。

        表1 本屆比賽使用的網(wǎng)絡(luò)結(jié)構(gòu)

        最終搜狗的算法在模型大小12MB,模型計(jì)算復(fù)雜度0.887GFLOPs的基礎(chǔ)上,取得了本次比賽中最好的性能,模型累計(jì)誤差分布曲線面積指標(biāo)(AUC)達(dá)到80.52,歸一化平均誤差(NME)為1.58,預(yù)測(cè)失誤率(FR@0.08)只有0.05。

        圖5 人臉關(guān)鍵點(diǎn)的累計(jì)誤差分布圖

        (曲線與橫軸圍成的面積越大算法性能越優(yōu)異)

        圖5搜狗AI的比賽測(cè)試結(jié)果樣例

        堅(jiān)持技術(shù)創(chuàng)新與應(yīng)用落地并重,搜狗核心AI技術(shù)持續(xù)領(lǐng)先

        搜狗在自然交互與知識(shí)計(jì)算的人工智能戰(zhàn)略指引下,堅(jiān)持以語(yǔ)言為核心的人工智能研究,近年來(lái)在語(yǔ)音、計(jì)算機(jī)視覺、問(wèn)答、翻譯、對(duì)話等核心技術(shù)領(lǐng)域取得突破性進(jìn)展。

        在技術(shù)創(chuàng)新方面,搜狗在計(jì)算機(jī)視覺領(lǐng)域一直保持著強(qiáng)勁實(shí)力。通用技術(shù)方向,于2018 年在CVPR WAD自動(dòng)駕駛視覺競(jìng)賽中奪得道路目標(biāo)檢測(cè)任務(wù)第一名;在國(guó)際自動(dòng)駕駛領(lǐng)域權(quán)威評(píng)測(cè)集Cityscapes實(shí)例分割評(píng)測(cè)任務(wù)中同樣拿到第一名的好成績(jī)。OCR方向,于2019年11月刷新了ICDAR 2019 ArT檢測(cè)、識(shí)別、端到端三項(xiàng)單元的新記錄;人臉識(shí)別方向,于2018年11月在人臉識(shí)別頂級(jí)評(píng)測(cè) MegaFace 的Face Identification(人臉識(shí)別)任務(wù)中,基于百萬(wàn)規(guī)模級(jí)別的人臉數(shù)據(jù)庫(kù)以 99.939% 的識(shí)別準(zhǔn)確率斬獲大賽第一名;本次ICPR 2020人臉106關(guān)鍵點(diǎn)檢測(cè)挑戰(zhàn)賽中又一次取得技術(shù)突破獲得冠軍,證明了搜狗在計(jì)算機(jī)視覺領(lǐng)域的領(lǐng)先實(shí)力。

        在應(yīng)用落地方面,搜狗自研的人臉相關(guān)技術(shù)已經(jīng)應(yīng)用于搜狗核心產(chǎn)品及解決方案中,其中,領(lǐng)先行業(yè)的數(shù)字人解決方案-搜狗分身已大量使用了自研的人臉關(guān)鍵點(diǎn)檢測(cè)、識(shí)別以及生成技術(shù),技術(shù)的不斷突破有力確保了搜狗分身的領(lǐng)先優(yōu)勢(shì);搜狗首創(chuàng)的基于模態(tài)注意力機(jī)制的語(yǔ)音+唇語(yǔ)的多模態(tài)識(shí)別技術(shù),強(qiáng)噪聲場(chǎng)景下識(shí)別準(zhǔn)確率提升36%;搜狗最新發(fā)布的搜狗AI錄音筆-E2在語(yǔ)音能力之外新增了視覺能力,能夠支持文檔圖像識(shí)別OCR等技術(shù),后續(xù)會(huì)陸續(xù)擴(kuò)展人臉識(shí)別等相關(guān)應(yīng)用。本次參賽的技術(shù)以應(yīng)用落地為導(dǎo)向,已具備了大規(guī)模部署的能力,不久的將來(lái)會(huì)與搜狗分身、AI硬件、多模態(tài)識(shí)別等能力產(chǎn)生聯(lián)動(dòng)效應(yīng),進(jìn)一步提升搜狗AI創(chuàng)新產(chǎn)品的用戶體驗(yàn)。

        未來(lái),搜狗將持續(xù)在計(jì)算機(jī)視覺領(lǐng)域推動(dòng)核心技術(shù)研發(fā)及創(chuàng)新,不斷擴(kuò)展技術(shù)成果的應(yīng)用落地,帶給用戶更多差異化的優(yōu)質(zhì)體驗(yàn)。(一鳴)

        免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

        最新推薦