行業(yè)動態(tài)

機(jī)器智能的安全之困

來源:聚銘網(wǎng)絡(luò)    發(fā)布時間:2019-10-29    瀏覽次數(shù):
 

信息來源:4hou

智能系統(tǒng)的核心范式

真正意義上的智能系統(tǒng),實(shí)例的核心范式一定有如下幾個組成部分:感知體系、認(rèn)知體系、決策體系、行動體系。同時,一個智能系統(tǒng)的實(shí)例,一定離不開與環(huán)境的交互,過去我們總是過多的強(qiáng)調(diào)和關(guān)注系統(tǒng)內(nèi)在本身,卻容易忽視與環(huán)境交互的作用。

感知體系的作用是對環(huán)境進(jìn)行觀測和沉淀,產(chǎn)出的是數(shù)據(jù)。一切數(shù)據(jù)的產(chǎn)生都源于對環(huán)境的觀測和沉淀,觀測和沉淀背后的動機(jī)是我們測量、記錄、分析世界的渴望。信息時時刻刻存在于環(huán)境中(數(shù)字空間或物理空間),在不同的場景下,我們用硬件、軟件、算法的方式,將其「數(shù)據(jù)化」。硬件有如傳感器、攝像頭等,軟件如日志記錄器、數(shù)據(jù)采集器等,算法如各類智能視覺算法、智能語音算法等。終有一天,我們能夠?qū)⒁磺形锢砜臻g都數(shù)據(jù)化,將物理空間完完全全映射到數(shù)據(jù)空間。

認(rèn)知體系的作用是對數(shù)據(jù)進(jìn)行歸納和總結(jié),提煉出知識。人類理解的知識一定是要用自然語言表達(dá),而對機(jī)器而言,用能夠代表問題空間的數(shù)據(jù)集進(jìn)行訓(xùn)練,再用訓(xùn)練好的「模型」來在新的數(shù)據(jù)空間中進(jìn)行推理。只要是能解決特定目標(biāo)任務(wù),無論其表現(xiàn)形態(tài)是向量、圖譜還是自然語言,其實(shí)都是知識,特征空間的表達(dá)本身就是一種知識。

決策體系的作用是對目標(biāo)任務(wù)進(jìn)行規(guī)劃和決策,生成對目標(biāo)任務(wù)的策略。行動體系根據(jù)策略執(zhí)行具體動作,和環(huán)境進(jìn)行交互、對環(huán)境產(chǎn)生影響。動作作用于環(huán)境后形成反饋,反饋又促進(jìn)感知體系感知更多的數(shù)據(jù),進(jìn)而持續(xù)獲取更多的知識,對目標(biāo)任務(wù)作出更好的決策,形成閉環(huán)持續(xù)迭代進(jìn)化。

從這個角度來看,機(jī)器智能的本質(zhì),實(shí)質(zhì)是一種觀測環(huán)境沉淀數(shù)據(jù)、歸納數(shù)據(jù)提煉知識、規(guī)劃目標(biāo)在線決策、作出行動影響環(huán)境的自主機(jī)器。機(jī)器智能是一種自主機(jī)器,而自主機(jī)器與過去自動化機(jī)器的最大區(qū)別在于其能否自主獲取解決目標(biāo)任務(wù)的知識。

單體智能到群體智能

今天大多數(shù)的智能系統(tǒng),都是一個個孤立分布的單體智能實(shí)例,解決的相應(yīng)也是一個個孤立分布的單體問題。云計算的本質(zhì)是「計算在線」,大數(shù)據(jù)的本質(zhì)是「數(shù)據(jù)在線」,而機(jī)器智能最終也需要實(shí)現(xiàn)讓智能在線,讓智能實(shí)例之間進(jìn)行自主在線交互。

單個智能實(shí)例都是由「感知-認(rèn)知-決策-行動」的體系構(gòu)成的自主系統(tǒng),有著自己的世界表征形式,能自主完成自身的目標(biāo)任務(wù)。在同一個動態(tài)復(fù)雜的博弈環(huán)境之中,實(shí)例與實(shí)例之間通過互聯(lián)實(shí)現(xiàn)在線,彼此存在相互作用,可以合作、競爭,可以競合并存,也可以既不合作也不競爭。一個實(shí)例的策略變化不光會影響自身的環(huán)境,也會影響其他實(shí)例的策略變化。

對于合作的多個智能實(shí)例之間,可以選擇共享數(shù)據(jù)、知識、策略或動作,協(xié)調(diào)協(xié)作以完成更為復(fù)雜的目標(biāo)任務(wù),共同形成更為高階的智能實(shí)例。當(dāng)單位空間內(nèi)智能實(shí)例的覆蓋密度足夠大的時候,單體智能開始向群體智能演進(jìn)。

智能與安全的四象限

安全是所有技術(shù)中最為特殊的一種,嚴(yán)格意義上甚至或許都不能稱「安全」為一門技術(shù)。早在人類還未發(fā)明任何技術(shù)之前,安全就已經(jīng)伴隨著人類的各種活動。迄今為止,沒有任何一種技術(shù)是安全領(lǐng)域獨(dú)有或者說從安全領(lǐng)域長出來的,但安全從來都是與其他技術(shù)相伴相生、相輔相成。

任何一門通用技術(shù),與安全的結(jié)合都有如下四種方式。機(jī)器智能技術(shù)也不例外,縱向是「給智能以安全」和「給安全以智能」,橫向是「攻擊視角」和「防御視角」。給智能以安全,是指機(jī)器智能技術(shù)本身會帶來新的安全問題,一種是機(jī)器智能自身脆弱性導(dǎo)致的安全問題,一種是機(jī)器智能引發(fā)周邊場景衍生出的安全問題。給安全以智能,是指將機(jī)器智能應(yīng)用于安全場景,攻擊者利用機(jī)器智能賦能攻擊,防御者利用機(jī)器智能賦能防御。

而在這四個象限中,新技術(shù)與安全發(fā)生交集的時間和發(fā)展的成熟程度又有所不同。攻擊者相比防御者而言,有更強(qiáng)的動機(jī)和利益,所以攻擊相關(guān)的象限通常都會更容易去探索新技術(shù)去接納新技術(shù)。防御者總是滯后,也總是容易沉迷于舊技術(shù)和人工經(jīng)驗營造出的安全假象中,導(dǎo)致第四象限總是發(fā)展最滯后最緩慢的一個象限。當(dāng)然,這與防御視角自身的屬性與困境也有直接關(guān)系。

機(jī)器智能的安全之困

圍棋是簡單的復(fù)雜游戲,而安全是復(fù)雜的簡單游戲。1994年,認(rèn)知科學(xué)家Steven Pinker在《The Language Instinct》中寫道「對機(jī)器智能而言,困難的問題是易解的,簡單的問題是難解的」?!负唵蔚膹?fù)雜問題」指的是問題空間是閉合的,但是問題本身卻又有較高的復(fù)雜度,「復(fù)雜的簡單問題」指的是問題空間是是無限開放式的,但問題本身卻并沒有很高的復(fù)雜度。今天機(jī)器智能技術(shù)在「簡單的復(fù)雜問題」的領(lǐng)域,往往都比人類會更強(qiáng),但對于「復(fù)雜的簡單問題」,泛化界限引起的維數(shù)災(zāi)難,機(jī)器智能往往都會失效。

安全是一個典型的「復(fù)雜的簡單問題」,莫拉維克悖論在安全領(lǐng)域更為明顯。高度不確定性是安全最大的特點(diǎn),安全自身最大的困境就是如何去應(yīng)對「未知的未知」。很多時候我們問題都沒定義清楚問題就沖上去說要用機(jī)器智能解決問題,這是絕大多數(shù)機(jī)器智能在安全領(lǐng)域失效的主要原因。今天在安全領(lǐng)域,不太需要去突破智能技術(shù)的天花板,亟待解決的反而是「定義清楚問題」,即如何閉合掉問題空間。

安全的問題空間通常都是無界的,同時問題空間對應(yīng)的正負(fù)樣本的樣本空間卻又嚴(yán)重的不對稱?!肝粗奈粗挂鸬呢?fù)向數(shù)據(jù)(如攻擊數(shù)據(jù)、風(fēng)險數(shù)據(jù)等)的嚴(yán)重缺乏導(dǎo)致特征空間的不對稱,進(jìn)而導(dǎo)致特征空間無法真正表征問題空間?!改P汀故且延袛?shù)據(jù)空間下關(guān)于世界的假設(shè),并且用于在新的數(shù)據(jù)空間下進(jìn)行推理。今天機(jī)器智能技術(shù)已經(jīng)能很好的解決表示輸入和輸出之間的非線性復(fù)雜關(guān)系,但對于樣本空間與問題空間存在的巨大鴻溝卻依然比較乏力。

20世紀(jì)六十年代,貝爾-拉帕杜拉安全模型(Bell-La Padula )指出「當(dāng)僅當(dāng)系統(tǒng)開始于安全的狀態(tài),且一直不會落入非安全狀態(tài),它才是安全的」。由于安全的本質(zhì)是對抗,對抗的存在導(dǎo)致安全領(lǐng)域的機(jī)器智能模型多數(shù)都逃不過的「上線即衰減」的命運(yùn)。在訓(xùn)練集上表現(xiàn)良好的模型,對于大規(guī)模的現(xiàn)實(shí)環(huán)境,從上線那一刻起就在引起對抗升級,進(jìn)而不斷跌入失效的狀態(tài)。模型衰減和封閉系統(tǒng)中的熵增一樣,是一個必然。

同時,安全場景中對檢測結(jié)果的準(zhǔn)確性、結(jié)果可解釋性都高度敏感。機(jī)器智能相比于傳統(tǒng)安全中經(jīng)常使用的基于規(guī)則、基于策略的檢測技術(shù),優(yōu)勢在于其強(qiáng)大的表征能力,但同時其不可解釋性、模糊性導(dǎo)致推理結(jié)果在決策場景下無法直接使用,這也是今天很多智能安全系統(tǒng)大都只在做「感知」,至多也只是做輔助決策的原因。

然而這些都還不是最大的「困」,機(jī)器智能在安全領(lǐng)域最大的「困」是思維模式上的困局。安全的思維模式是「守正出奇」,而機(jī)器智能的思維模式是「Model The World」。這兩種思維模式之間不僅存在巨大的差異,也異常難調(diào)和。一方面極少有人能同時駕馭這兩種思維方式,另一方面把兩種思維的人放到一起也極難協(xié)作起來,本質(zhì)原因是缺少橋梁來銜接安全問題到算法問題之間的相互轉(zhuǎn)換和定義。

問題空間之困、樣本空間之困、推理結(jié)果之困、對抗衰減之困、思維模式之困,這些問題導(dǎo)致了今天絕大多數(shù)現(xiàn)實(shí)中的智能安全系統(tǒng)的表現(xiàn)都差強(qiáng)人意?;蛘咭部梢哉f得更悲觀一點(diǎn),今天在安全領(lǐng)域,迄今為止還沒有真正意義的智能安全系統(tǒng)。

真正的智能安全系統(tǒng)

先來說說通用安全場景下的通用數(shù)據(jù)范式。柏拉圖學(xué)派認(rèn)為「我們感知的世界是洞穴里面墻壁上的投影」,現(xiàn)象世界都是理性世界的倒影,理性世界才是世界的本質(zhì)或本原?!付囱ū扔鳌挂馕吨嬖谝粋€外在的客觀的知識體系,不依賴人類的認(rèn)知而存在,人類探索知識的過程就是不斷從現(xiàn)實(shí)世界的現(xiàn)象觀察中,摸索、推測這個客觀知識體系的過程。亞里士多德進(jìn)一步奠定了本體論最初的思想,定義其為研究「存在」的科學(xué),是形而上學(xué)的基本分支。再到17世紀(jì),哲學(xué)家郭克蘭紐 (R. Goclenius) 首次提出「Ontology」一詞,再到20世紀(jì)60年代,機(jī)器智能領(lǐng)域開始引入Ontology的思想,之后又進(jìn)一步演化出語義網(wǎng)、知識圖譜等。

安全中的對抗本質(zhì)是知識的對抗,獲取知識更多的一方就能擁有更多的不對稱優(yōu)勢。無論是威脅分析、情報研判、攻擊檢測、事件溯源……本質(zhì)都是在探索知識的一個過程,這就是為什么Palantir的Gotham、IBM的I2、UEBA、各種威脅情報產(chǎn)品等等背后都不約而同或多或少借鑒了Ontology思想的根本原因。

而安全場景下的通用數(shù)據(jù)范式,也離不開Ontology。實(shí)體、屬性、行為、事件、關(guān)系,通過這五大元數(shù)據(jù)類型,可以構(gòu)建出所有安全場景中的數(shù)據(jù)架構(gòu)(無論是基礎(chǔ)安全、業(yè)務(wù)安全、數(shù)據(jù)安全、公共安全、城市安全……注:公共安全領(lǐng)域也單獨(dú)關(guān)注「軌跡」這一類元數(shù)據(jù)類型,因「軌跡」是一種特殊的「行為」數(shù)據(jù),故這里統(tǒng)一都合并成行為)。

· 實(shí)體:實(shí)體是客觀存在并可以與其他對象區(qū)分開來的對象;

· 屬性:屬性即為標(biāo)簽,是描述實(shí)體的表述,對實(shí)體抽象方面的刻畫;

· 行為:行為是實(shí)體在特定時間、空間下發(fā)出的動作;

· 事件:事件是一定時空或條件下所認(rèn)識到的可識別的事情;

· 關(guān)系:關(guān)系是實(shí)體與其他實(shí)體之間的關(guān)聯(lián)程度與表述。

安全領(lǐng)域絕大多數(shù)沉淀的源數(shù)據(jù)都是行為類數(shù)據(jù),無論是網(wǎng)絡(luò)流量日志、主機(jī)命令日志、業(yè)務(wù)日志、攝像頭數(shù)據(jù)流、感知設(shè)備數(shù)據(jù)流……,這些都是行為數(shù)據(jù)。而實(shí)體、屬性、關(guān)系、事件的產(chǎn)生都是從行為數(shù)據(jù)中進(jìn)行萃取,通過對不同的行為數(shù)據(jù)運(yùn)行不同的 Function 來產(chǎn)生。

當(dāng) Function 是生成事件的時候,即為安全檢測問題,包括攻擊檢測、威脅檢測、風(fēng)險檢測、異常檢測等等。絕大多數(shù)安全檢測問題的原子范式都可以抽象為Y=F(X),其中X是實(shí)體的行為數(shù)據(jù),Y是檢測結(jié)果,F(xiàn)是檢測模型。F可以是基于規(guī)則、基于策略、詞法語義、統(tǒng)計檢測、機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等等,Y可以是正常、異常、攻擊或者未知。

更為復(fù)雜的檢測場景也都可以通過一個個基本F與各類算子組裝編排而成。每一種類型的F都有其優(yōu)勢和劣勢,有不同的最優(yōu)使用場景,并不存在一種絕對先進(jìn)絕對領(lǐng)先的檢測技術(shù)。事實(shí)上算法在安全檢測中最應(yīng)該關(guān)注的不是去做檢測模型本身,而是能否自主化的根據(jù)各種場景生成最優(yōu)的檢測模型,并能自主化持續(xù)迭代檢測模型。

真正意義上的智能安全系統(tǒng)一定也是具備感知體系、認(rèn)知體系、決策體系和行動體系,同時和環(huán)境形成反饋閉環(huán)。感知體系至少包括異常感知器、攻擊感知器、漏報感知器和誤報感知器?!府惓8兄鳌沟淖饔靡环矫媸潜3指兄肝粗奈粗沟哪芰?,另一方面是利用「通過定義正常來尋找異?!沟乃枷雭斫狻笜颖究臻g之困」的問題?!腹舾兄鳌沟淖饔檬窃诋惓?shù)據(jù)的基礎(chǔ)上去檢測攻擊,為了解「推理結(jié)果之困」的同時,也大大縮減推理結(jié)果誤報漏報范圍?!嘎﹫蟾兄鳌购汀刚`報感知器」是為了去解「對抗衰減之困」。由此可以看出,整個行業(yè)內(nèi)大家最常關(guān)注的「用算法做攻擊檢測」,其實(shí)只是做了智能系統(tǒng)當(dāng)中感知體系里很小的一小步。

認(rèn)知體系沉淀的是跟安全相關(guān)的各種知識,至少包括正常知識、攻擊知識、漏報知識、誤報知識。安全知識可以是基于專家規(guī)則、向量、模型、圖譜、自然語言等等,但無論是哪種形態(tài),一定都是精細(xì)化個性化的「千人千面」的知識。即對每一個受保護(hù)對象(如用戶、系統(tǒng)、資產(chǎn)、域名、數(shù)據(jù)等),沉淀形成適用于該受保護(hù)對象的一套感知異常、攻擊、漏報、誤報的知識。決策體系當(dāng)中至少包含對目標(biāo)任務(wù)的攔截策略、各類模型的上線下線等策略等,能自主決策哪些行為該攔截,哪些模型已經(jīng)衰減該重訓(xùn)練該替換等。

行動體系當(dāng)中是各類作用于環(huán)境的動作,如放行、阻斷、重訓(xùn)練、發(fā)布等等。一個真正的智能安全 instance 里面包了含成千上萬的 agent ,每一個 agent 只作用于其對應(yīng)的受保護(hù)對象。最后,「問題空間之困」的解法是將開放的問題空間收斂為一個個小的閉合的風(fēng)險場景,一方面靠的是四個感知器的級連形成的縱深檢測,另一方面靠的就是「千人千面」的 agent 。

機(jī)器智能重塑新安全

安全領(lǐng)域發(fā)展至今,一直處于問題消滅得少概念卻造得不少的階段,亟待利用新技術(shù)去真正解決舊問題。機(jī)器智能在各個行業(yè)的炙手可熱,同樣也引起了安全行業(yè)的追捧。但今天安全領(lǐng)域的智能能力參差不一的同時,又難以分辨其真假。以至于但凡用了一丁點(diǎn)算法的,都會宣稱「基于人工智能的XX安全系統(tǒng)」。同早年的智能駕駛領(lǐng)域一樣,今天的智能安全也亟需統(tǒng)一的分級標(biāo)準(zhǔn),用以明確不同級別智能安全技術(shù)之間的差異性?!赴踩谋举|(zhì)是智能體的對抗」,故根據(jù)自主對抗的程度,我們將智能安全劃分為L0~5共如下6個級別:

· L0級別為「人工對抗」,即完全沒有任何機(jī)器智能的能力,完全由防御者人工雨攻擊者進(jìn)行對抗,對抗操作、感知判斷、任務(wù)支援全都由人工進(jìn)行。

· L1級別為「輔助對抗」,由機(jī)器完成已知攻擊的攻擊檢測和攻擊防御,其余的操作(如感知未知威脅、感知漏報、感知誤報等)由人類進(jìn)行。

· L2級別為「低度自主對抗」,由機(jī)器完成已知攻擊攻擊檢測和攻擊防御,并具備能感知未知威脅或誤報漏報,其余由人類操作。

· L3級別為「中度自主對抗」,由機(jī)器完成所有的對抗操作(攻擊檢測、攻擊防御、主動感知未知威脅、誤報漏報主動感知、對抗升級自動學(xué)習(xí)),根據(jù)系統(tǒng)要求,人類在適當(dāng)?shù)臅r候進(jìn)行應(yīng)答(中間過程必須需要人類參與)。

· L4級別為「高度自主對抗」,由機(jī)器完成所有的對抗操作,根據(jù)系統(tǒng)要求,人類不一定提供所有的應(yīng)答(中間過程非必須有人類參與),但只能作用于限定的特定的安全場景(如網(wǎng)絡(luò)域、主機(jī)域等)。

· L5級別為「完全自主對抗」,由機(jī)器完成所有的對抗操作,根據(jù)系統(tǒng)要求,人類不一定提供所有的應(yīng)答,不限定特定的場景,作用于全域范圍。

不同于智能駕駛技術(shù),不同的 Level 采用的是完全不同的技術(shù)棧,智能安全中的 L0~5 是需要逐步往上構(gòu)建往上發(fā)展。按照這個劃分,今天行業(yè)內(nèi)絕大部份的安全系統(tǒng)都是L1 的系統(tǒng),極少一部分能達(dá)到 L2,但還沒有真正意義上的L3及以上的智能安全系統(tǒng)。隨著級別往上走,能夠?qū)⒎烙邚牡退綄怪兄鸩结尫懦鰜?,能更加關(guān)注高級對抗,L3是個分水嶺,有望在5年內(nèi)實(shí)現(xiàn)?!甘加趪褰K于安全」,機(jī)器智能在安全領(lǐng)域的終局是什么?網(wǎng)絡(luò)層、主機(jī)層、應(yīng)用層、業(yè)務(wù)層、數(shù)據(jù)層都分別有各自的智能實(shí)例,不同層的實(shí)例在線互聯(lián),實(shí)現(xiàn)真正意義的協(xié)同防御與情報共享。當(dāng)智能「Intelligence」和情報「Intelligence」融合的那一天,才是真正的「Intelligence Remodels New Security」。


 
 

上一篇:邊緣計算安全性的挑戰(zhàn)與好處

下一篇:2019年10月29日 聚銘安全速遞