安全動態(tài)

機(jī)器學(xué)習(xí)對抗性攻擊報告

來源:聚銘網(wǎng)絡(luò)    發(fā)布時間:2017-01-09    瀏覽次數(shù):
 

信息來源:FreeBuf

從12月29日起,神秘的賬號Master在弈城、野狐等圍棋對戰(zhàn)平臺上輪番挑戰(zhàn)各大圍棋高手,并取得了不可思議的多連勝。1月4日,聶衛(wèi)平、常昊、周睿羊等高手接連輸給Master,到目前截止它已獲得60連勝。Master在與古力的對決之前終于揭曉了自己的身份,果然就是去年大出風(fēng)頭的AlphaGo(升級版),而對陣古力,也提前聲明了會是最后一戰(zhàn)。

我們不妨將Master的60連勝視為人工智能與人類交鋒的信號和警報,在人工智能時代人類如何完成自身的“刷新升級”值得每個人思考。同時其帶來的安全問題也急需安全專家去突破。

科技的發(fā)展使人工智能離人類的生活越來越近,其中隱含的安全問題也漸漸引起頂級安全專家們的關(guān)注。

本文由百度安全實驗室專家撰寫,詳細(xì)介紹了在GeekPwn2016硅谷分會場上,頂尖安全專家們針對當(dāng)前流行的人工智能圖形對象識別、語音識別的場景所采用的構(gòu)造攻擊數(shù)據(jù)方式和攻擊演示。

百度安全實驗室的專家對這些攻擊方式提出了獨(dú)到見解,并對未來趨勢進(jìn)行了預(yù)測。

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)在互聯(lián)網(wǎng)的各個領(lǐng)域的廣泛應(yīng)用,其受攻擊的可能性,以及其是否具備強(qiáng)抗打擊能力一直是安全界一直關(guān)注的。之前關(guān)于機(jī)器學(xué)習(xí)模型攻擊的探討常常局限于對訓(xùn)練數(shù)據(jù)的污染。由于其模型經(jīng)常趨向于封閉式的部署,該手段在真實的情況中并不實際可行。在GeekPwn2016硅谷分會場上,來自北美工業(yè)界和學(xué)術(shù)界的頂尖安全專家們針對當(dāng)前流行的圖形對象識別、語音識別的場景,為大家揭示了如何通過構(gòu)造對抗性攻擊數(shù)據(jù),要么讓其與源數(shù)據(jù)的差別細(xì)微到人類無法通過感官辨識到,要么該差別對人類感知沒有本質(zhì)變化,而機(jī)器學(xué)習(xí)模型可以接受并做出錯誤的分類決定,并且同時做了攻擊演示。以下將詳細(xì)介紹專家們的攻擊手段。

1. 攻擊圖像語音識別系統(tǒng)

目前人工智能和機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用在人機(jī)交互,推薦系統(tǒng),安全防護(hù)等各個領(lǐng)域。具體場景包括語音,圖像識別,信用評估,防止欺詐,過濾惡意郵件,抵抗惡意代碼攻擊,網(wǎng)絡(luò)攻擊等等。攻擊者也試圖通過各種手段繞過,或直接對機(jī)器學(xué)習(xí)模型進(jìn)行攻擊達(dá)到對抗目的。特別是在人機(jī)交互這一環(huán)節(jié),隨著語音、圖像作為新興的人機(jī)輸入手段,其便捷和實用性被大眾所歡迎。同時隨著移動設(shè)備的普及,以及移動設(shè)備對這些新興的輸入手段的集成,使得這項技術(shù)被大多數(shù)人所親身體驗。而語音、圖像的識別的準(zhǔn)確性對機(jī)器理解并執(zhí)行用戶指令的有效性至關(guān)重要。與此同時,這一環(huán)節(jié)也是最容易被攻擊者利用,通過對數(shù)據(jù)源的細(xì)微修改,達(dá)到用戶感知不到,而機(jī)器接受了該數(shù)據(jù)后做出錯誤的后續(xù)操作的目的。并會導(dǎo)致計算設(shè)備被入侵,錯誤命令被執(zhí)行,以及執(zhí)行后的連鎖反應(yīng)造成的嚴(yán)重后果。本文基于這個特定的場景,首先簡單介紹下白盒黑盒攻擊模型,然后結(jié)合專家們的研究成果,進(jìn)一步介紹攻擊場景,對抗數(shù)據(jù)構(gòu)造攻擊手段,以及攻擊效果。

1.1 攻擊模型

和其他攻擊不同,對抗性攻擊主要發(fā)生在構(gòu)造對抗性數(shù)據(jù)的時候,之后該對抗性數(shù)據(jù)就如正常數(shù)據(jù)一樣輸入機(jī)器學(xué)習(xí)模型并得到欺騙的識別結(jié)果。在構(gòu)造對抗性數(shù)據(jù)的過程中,無論是圖像識別系統(tǒng)還是語音識別系統(tǒng),根據(jù)攻擊者掌握機(jī)器學(xué)習(xí)模型信息的多少,可以分為如下兩種情況:

· 白盒攻擊

攻擊者能夠獲知機(jī)器學(xué)習(xí)所使用的算法,以及算法所使用的參數(shù)。攻擊者在產(chǎn)生對抗性攻擊數(shù)據(jù)的過程中能夠與機(jī)器學(xué)習(xí)的系統(tǒng)有所交互。

· 黑盒攻擊

攻擊者并不知道機(jī)器學(xué)習(xí)所使用的算法和參數(shù),但攻擊者仍能與機(jī)器學(xué)習(xí)的系統(tǒng)有所交互,比如可以通過傳入任意輸入觀察輸出,判斷輸出。

2. GeekPwn現(xiàn)場機(jī)器學(xué)習(xí)對抗性攻擊

2.1 Physical Adversarial Examples

在GeekPwn2016硅谷分會場上,來自O(shè)penAI的Ian Goodfellow和谷歌大腦的Alexey Kurakin分享了“對抗性圖像”在現(xiàn)實物理世界欺騙機(jī)器學(xué)習(xí)的效果。值得一提的是,Ian Goodfellow正是生成式對抗神經(jīng)網(wǎng)絡(luò)模型的發(fā)明者。

首先先簡單介紹一下對抗性圖像攻擊。對抗性圖像攻擊是攻擊者構(gòu)造一張對抗性圖像,使人眼和圖像識別機(jī)器識別的類型不同。比如攻擊者可以針對使用圖像識別的無人車,構(gòu)造出一個圖片,在人眼看來是一個stopsign,但是在汽車看來是一個限速60的標(biāo)志。

1.jpg

圖1 攻擊圖像識別場景

在會上,Ian和Alexey指出過去的對抗性圖像工作都基于如下的攻擊模型,即攻擊者可以直接向機(jī)器學(xué)習(xí)模型輸入數(shù)據(jù),從而保證攻擊者可以隨心所欲地對任意粒度的圖片進(jìn)行修改,而不需要考慮燈光,圖片角度,以及設(shè)備在讀取圖片時對對抗性圖像攻擊效果產(chǎn)生變化。因此,他們嘗試了對抗性圖片在真實物理世界的表現(xiàn)效果,即對抗性圖片在傳入機(jī)器學(xué)習(xí)模型之前,還經(jīng)過了打印、外部環(huán)境、攝像頭處理等一系列不可控轉(zhuǎn)變。相對于直接給計算機(jī)傳送一張無損的圖片文件,該攻擊更具有現(xiàn)實意義。

在如何構(gòu)造對抗性攻擊圖片上,他們使用了非定向類攻擊中的FGS和FGS迭代方法,和定向類的FGS迭代方法 [1]。其中,非定向類攻擊是指攻擊者只追求對抗圖像和原圖像不同,而不在意識別的結(jié)果是什么。定向類攻擊則是指攻擊者在構(gòu)造圖像時已經(jīng)預(yù)定目標(biāo)機(jī)器學(xué)習(xí)模型識別的結(jié)果。

在定向類攻擊中,作者首先根據(jù)條件概率找出給定源圖像,最不可能(least-likely)被識別的類型y值,表示為(該種類通常和原種類完全不同)。然后采用定向類攻擊方法中的FGS迭代方法,產(chǎn)生對抗性圖片。其中非定向類攻擊方法在類型種類比較少并且類型種類差距較大的數(shù)據(jù)庫里,比較有效。但是一旦類型之間比較相關(guān),該攻擊圖像有極大的可能只會在同一個大類中偏移。這時候定向類攻擊方法就會有效很多。

2.jpg

圖2 對抗性圖像在現(xiàn)實物理世界欺騙機(jī)器學(xué)習(xí)過程

為了驗證結(jié)果,作者采用白盒攻擊模型。其中,作者使用谷歌Inception v3作為目標(biāo)圖像識別模型,并選取ImageNet中的50,000個驗證圖像針對Inception v3構(gòu)造出相對應(yīng)的對抗性圖像。在實驗中,他們將所有的對抗性圖片和原始圖片都打印出來,并手動用一個Nexus 5智能手機(jī)進(jìn)行拍照,然后將手機(jī)里的圖像輸入Inception v3模型進(jìn)行識別?,F(xiàn)場結(jié)果表明,87%的對抗性圖像在經(jīng)過外界環(huán)境轉(zhuǎn)化后仍能成功欺騙機(jī)器,從而證明了物理對抗性例子在真實世界的可能性。

在他們的論文中,作者還測試了物理世界造成的圖像轉(zhuǎn)化對使用不同方法構(gòu)造的對抗性圖片的毀壞程度。有意思的結(jié)論是迭代方法受圖像轉(zhuǎn)化的影響更大。這是因為迭代方法對原圖像使用了更微妙的調(diào)整,而這些調(diào)整在外界圖像轉(zhuǎn)化過程中更容易被毀壞。作者還分別測試了亮度、對比度、高斯模糊轉(zhuǎn)化、高斯噪音轉(zhuǎn)化和JPEG編碼轉(zhuǎn)化量度,對各個對抗性圖像方法的毀壞程度。具體實驗結(jié)果請參見他們的論文 [1]。

2.2   Exploring New Attack Space on Adversarial Deep Learning

來自UC Berkeley大學(xué)的Dawn Song教授和劉暢博士介紹了對抗式深度學(xué)習(xí)在除了其他領(lǐng)域的攻擊和防御。其中Dawn Song教授是Taint Analysis理論的主要貢獻(xiàn)者之一,還是美國“麥克阿瑟天才獎”獲得者。在現(xiàn)場,專家們首先拓展了對抗性深度學(xué)習(xí)在圖像識別檢測上的應(yīng)用,然后還提出構(gòu)造對抗性圖片的優(yōu)化方法-ensemble黑盒攻擊算法[6]。

在圖像識別物體檢測中,如圖3左圖所示,深度學(xué)習(xí)可以用來檢測圖像中不同的物體以及他們之間的關(guān)系并自動生成說明(Caption) [2]。在這種場景下,對抗性圖像攻擊同樣可以欺騙機(jī)器學(xué)習(xí)模型,并給出異常的說明,如圖3右圖所示。對抗性圖像構(gòu)建的基本思路是給定Caption的前綴后,盡量誤導(dǎo)之后的判斷。

3.jpg

圖3 對抗性圖片在圖像識別檢測中的應(yīng)用

同時,專家們還研究了對抗性圖像攻擊在黑盒分類模型中的表現(xiàn),并且提出了優(yōu)化算法-ensemble黑盒攻擊算法。在通常情況下,攻擊者并不知道目標(biāo)模型使用了什么算法已經(jīng)相關(guān)的參數(shù)。這時候攻擊者只能使用黑盒模型攻擊。過程如下所示:

1. 攻擊者在目標(biāo)機(jī)器學(xué)習(xí)模型未知的情況下,通過詢問黑盒子系統(tǒng)所得結(jié)果,得到一系列訓(xùn)練樣本。

2. 攻擊者任意選取了某機(jī)器學(xué)習(xí)算法并使用訓(xùn)練樣本訓(xùn)練得到已知機(jī)器學(xué)習(xí)模型。

3. 攻擊者針對訓(xùn)練出來的已知機(jī)器學(xué)習(xí)模型構(gòu)建對抗數(shù)據(jù)。

4.jpg

圖4 對抗性圖像黑盒攻擊流程

這一攻擊基于對抗性圖像的欺騙傳遞性,即針對機(jī)器學(xué)習(xí)模型A構(gòu)造的對抗性圖像,也會有很大的比例能欺騙機(jī)器學(xué)習(xí)模型B。表1展示了使用單網(wǎng)絡(luò)優(yōu)化方法時,針對不同元模型構(gòu)造的非定向?qū)剐詧D像,被不同目標(biāo)模型識別的成功率。每一個格子(i,j)代表針對算法模型i產(chǎn)生的對抗圖片,在其他算法模型j上驗證的結(jié)果,百分比表示所有對抗性圖片中被識別成原圖片類型的比例??梢钥闯?,當(dāng)同一個圖像識別系統(tǒng)被用來構(gòu)造和驗證對抗性圖像時(白盒攻擊模型),百分比為0。這說明在白盒攻擊模型中,構(gòu)建對抗性圖像的效果非常好,全部不能正確識別。當(dāng)驗證模型和構(gòu)造模型并不一致時,大部分對抗性圖像的百分比也在10%-40%之間浮動,該結(jié)果有效證明了對抗數(shù)據(jù)在不同算法之間有一定的傳遞性。

table.png

表1 針對不同源機(jī)器學(xué)習(xí)模型構(gòu)造的非定向?qū)剐怨舴椒ǎ▎尉W(wǎng)絡(luò)優(yōu)化方法)在目標(biāo)模型的攻擊效果。其中,ResNet-50, ResNet-101, ResNet-152,GoogLeNet,Incept-v3和VGG-16是當(dāng)下流行的深度神經(jīng)網(wǎng)絡(luò)圖像識別系統(tǒng)。

然而,作者還使用了同樣的實驗方法測試了定向性對抗性攻擊在目標(biāo)模型的效果。結(jié)果表明定向類標(biāo)記的傳遞性差了很多,只有小于等于4%的對抗性圖像在源、目標(biāo)機(jī)器學(xué)習(xí)模型中都識別出相同的定向標(biāo)記。

基于此,作者提出了ensemble方法。它是以多個深度神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)構(gòu)造對抗圖片,即將圖4中單個已知機(jī)器學(xué)習(xí)模型替換成多個不同的已知機(jī)器學(xué)習(xí)模型,并共同產(chǎn)生一個對抗性圖像。

在實驗設(shè)計中,作者對5個不同的深度神經(jīng)網(wǎng)絡(luò)模型一一實施了黑盒子攻擊。在對每一個模型攻擊的時候,作者假設(shè)已知其余的4個模型,并用集合的方式作白盒子對抗圖形的構(gòu)造。同樣的,作者分別使用基于優(yōu)化的攻擊手段,和基于Fast Gradient的手段構(gòu)造對抗性圖片。構(gòu)造圖片依然使用的是Adam優(yōu)化器。在算法經(jīng)過100次的迭代對權(quán)重向量的更新,loss function得以匯聚。作者發(fā)現(xiàn)有許多攻擊者預(yù)先設(shè)定的標(biāo)記也得到了傳遞。詳細(xì)結(jié)果參見表2。格子(i,j)代表用除了模型i之外的4個其他算法生成的對抗圖片,用模型j來驗證得到的定向標(biāo)記的準(zhǔn)確值??梢钥闯?,當(dāng)目標(biāo)模型包含在已知模型集合中,定向類標(biāo)記的傳遞性都在60%以上。即使目標(biāo)模型不在已知模型集合中,定向標(biāo)記的準(zhǔn)確值也在30%以上。

table2.png

表2 針對不同源機(jī)器學(xué)習(xí)模型構(gòu)造的定向?qū)剐怨舴椒ǎ╡nsemble方法)在目標(biāo)模型的攻擊效果。

作者同樣使用了ensemble算法進(jìn)行非定向攻擊。攻擊結(jié)果如表3所示??梢钥闯龊捅?相比,ensemble算法的欺騙性大幅度提升。

table3.png

表3 針對不同源機(jī)器學(xué)習(xí)模型構(gòu)造的非定向?qū)剐怨舴椒ǎ╡nsemble方法)在目標(biāo)模型的攻擊效果。

2.3 Hidden Voice Commands

5.jpg

圖5 攻擊語音識別場景

來自美國Georgetown University的Tavish Vaidya博士分享了隱匿的語音命令這一工作。

對抗性語音攻擊則是攻擊者構(gòu)造一段語音,使人耳和語音識別機(jī)器識別的類型不同。語音攻擊和圖像攻擊最大的不同在于,它希望保證對抗性語音和原語音差距越遠(yuǎn)越好,而不是保持對抗性語音和原語音的相似性。該團(tuán)隊依據(jù)現(xiàn)實情況,分別提出了黑盒攻擊和白盒攻擊兩種類型。在他們的實驗中,揚(yáng)聲器發(fā)出一段人類無法辨認(rèn)的噪音,卻能夠在三星Galaxy S4以及iPhone 6上面被正確識別為相對應(yīng)的語音命令,達(dá)到讓手機(jī)切換飛行模式、撥打911等行為 [3]。

黑盒攻擊(語音識別):

在黑盒攻擊模型中,攻擊者并不知道機(jī)器學(xué)習(xí)的算法,攻擊者唯一的知識是該機(jī)器使用了MFC算法。MFC算法是將音頻從高維度轉(zhuǎn)化到低緯度的一個變換,從而過濾掉一些噪聲,同時保證機(jī)器學(xué)習(xí)能夠操作這些輸入。但是從高維到低維的轉(zhuǎn)化過程中,不可避免地會丟失一些信息。相對應(yīng)的,從低維到高維的轉(zhuǎn)化,也會多添加一些噪聲。黑盒攻擊的原理正是攻擊者通過迭代,不斷調(diào)整MFCC的參數(shù)并對聲音進(jìn)行MFCC變換和逆變換,過濾掉那些機(jī)器不需要,而人類所必須的信息,從而構(gòu)造出一段混淆的語音。因為MFC算法被大量用于語音識別這個場景,所以該攻擊模型仍保證了很強(qiáng)的通用性。該具體步驟如圖4所示,感興趣的讀者可以參見他們的論文 [3].

6.jpg

圖6 對抗性語音黑盒攻擊模型[3]

在實驗中,作者發(fā)現(xiàn)使用的語音識別系統(tǒng)只能識別3.5米之內(nèi)的語音命令。在揚(yáng)聲器和手機(jī)的距離控制在3米的情況下,表4統(tǒng)計了人類和機(jī)器對不同命令的識別的比例。平均情況下,85%正常語音命令能被語音識別。在他們的混淆版本中,仍有60%的語音命令能被正常識別。在人類識別類別中,作者使用Amazon Mechanical Turk服務(wù),通過crowd sourcing的形式讓檢查員猜測語音的內(nèi)容。在這種情況下不同的命令混淆的效果也不盡相同。對于”O(jiān)K Google”和”Turn on airplane mode”命令,低于25%的混淆命令能夠被人類正確識別。其中,94%的”Call 911”混淆版本被人類正常識別比較異常。作者分析了兩個主要原因。1是該命令太過熟悉。2是測試員可多次重復(fù)播放語音,從而增加了猜測成功的概率。

table4.png

表4 對抗性語音黑盒攻擊結(jié)果。[3]

白盒攻擊(語音識別):

在白盒子攻擊中,該團(tuán)隊對抗的目標(biāo)機(jī)器學(xué)習(xí)算法是開源的CMU Sphinx speech recognition system [4]。在整個系統(tǒng)中,CMU Sphinx首先將整段語音切分成一系列重疊的幀(frame), 然后對各幀使用Mel-Frequency Cepstrum (MFC)轉(zhuǎn)換,將音頻輸入減少到更小的一個維度空間,即圖7中的特征提取。然后,CMU Sphinx使用了Gaussian Mixture Model(GMM)來計算特定音頻到特定音素(phoneme)的一個概率。最后通過Hidden Markov Model(HMM),Sphinx可以使用這些音素(phoneme)的概率轉(zhuǎn)化為最有可能的文字。這里GMM和HMM都屬于圖7中的機(jī)器學(xué)習(xí)算法。

7.jpg

圖7 CMU Sphinx speech recognition system模型[4]

在Tavish的白盒攻擊模型中,他分別提出了兩個方法:1.simple approach 2. Improved attack. 第一個方法和黑盒方法的不同點(diǎn)在于,它已知了MFCC的各參數(shù),從而可以使用梯度下降更有針對性地只保留對機(jī)器識別關(guān)鍵的一些關(guān)鍵值。在整個梯度下降的過程中,input frame不斷地逼近機(jī)器識別的目標(biāo)y,同時人類識別所需的一些多余信息就被不可避免地被剔除了。

第二類白盒攻擊的基本原理是依據(jù)機(jī)器和人對音高低起伏變化(音素)的敏感性不同,通過減少每個音素對應(yīng)的幀(frame)的個數(shù),讓這段聲音只能被機(jī)器識別,而人類只能聽到一段扁平混亂的噪音。這些特征值再經(jīng)過MFCC逆變換,最終成為一段音頻,傳到人們耳中。具體的方法和語音相關(guān)的知識更密切一下,有興趣的讀者可以看他們的論文了解具體的方法。表5展示了他們的攻擊效果。

table5.png

表5 對抗性語音白盒攻擊效果。[3]

2.4  對抗性數(shù)據(jù)的防護(hù)

雖然對抗性數(shù)據(jù)攻擊的發(fā)現(xiàn)很巧妙,但是在當(dāng)前圖像語音識別應(yīng)用的場合上,有效的防御并不困難。主要有以下幾類:

1. 增加人類交互認(rèn)證,例如機(jī)器可以簡單地發(fā)出一聲警報、或請求輸入音頻驗證碼等方式。

2. 增強(qiáng)對抗性數(shù)據(jù)作為機(jī)器學(xué)習(xí)模型的輸入的難度。例如語音識別系統(tǒng)可以使用聲紋識別、音頻濾波器等方式過濾掉大部分惡意語音。

3. 從機(jī)器學(xué)習(xí)模型本身訓(xùn)練其辨別良性、惡意數(shù)據(jù)的能力。這時候,這些已知的對抗性數(shù)據(jù)就提供了珍貴的訓(xùn)練數(shù)據(jù)。

4. 賓州州立大學(xué)還提出Distillation的方法 [5],從深度神經(jīng)網(wǎng)絡(luò)提取一些指紋來保護(hù)自己。

隨著人工智能深入人們的生活,人類將越發(fā)依賴人工智能帶來的高效與便捷。同時,它也成為攻擊者的目標(biāo),導(dǎo)致應(yīng)用機(jī)器學(xué)習(xí)的產(chǎn)品和網(wǎng)絡(luò)服務(wù)不可依賴。GeekPwn2016硅谷分會場所揭示的是頂級安全專家對機(jī)器學(xué)習(xí)安全方面的擔(dān)憂。隨著一個個應(yīng)用場景被輕易的攻破,盡管目前只是在語音,圖像識別等場景下,我們可以清醒的認(rèn)識到,當(dāng)這些場景與其他服務(wù)相結(jié)合的時候,攻擊成功的嚴(yán)重后果。人工智能作為未來智能自動化服務(wù)不可缺少的一個重要部分,已然是安全行業(yè)與黑產(chǎn)攻擊者抗?fàn)幍男聭?zhàn)場。

Bibliography

[1] A. Kurakin, I. J. Goodfellowand S. Bengio, “Adversarial examples in the physical world,” corr,2016.

[2] J. Justin, K. Andrej and F.Li, “Densecap: Fully convolutional localization networks for densecaptioning.,” arXiv preprint arXiv:1511.07571 , 2015.

[3] N. Carlini, P. Mishra, T.Vaidya, Y. Zhang, M. Sherr, C. Shields, D. Wagner and W. Zhou, “HiddenVoice Commands,” in USENIX Security 16, Austin, 2016.

[4] P. Lamere, P. Kwork, W.Walker, E. Gouvea, R. Singh, B. Raj and P. Wolf, “Design of the CMUSphinx-4 Decoder,” in Eighth European Conference on Speech Communicationand Technology, 2003.

[5] N. Papernot, P. McDaniel, X.Wu, S. Jha and A. Swami, ” Distillation as a Defense to AdversarialPerturbations against Deep Neural Networks Authors:”.

[6]Y. Liu, X. Chen, C. Liu andD. Song, “Delving into transferable adversarial examples and black-boxattacks,” in ARXIV.

* 本文轉(zhuǎn)載自“百度安全實驗室”微信公眾賬號,作者曹躍、仲震宇、韋韜 ,原文地址

 
 

上一篇:CES 2017,5G展示一覽眾山小

下一篇:2017年01月09日 聚銘安全速遞