全部課程
發(fā)布時間: 2022-02-17 11:49:08
什么是機器學習?事實上,機器學習是一系列技術(shù)的一部分,這些技術(shù)通常被歸為人工智能(AI)。這個詞曾經(jīng)讓科幻小說愛好者夢想到兩足機器人和有意識的機器,或者夢想到一個機器奴役人類的矩陣世界。
事實上,人工智能包括允許計算系統(tǒng)使用任何技術(shù)來模擬人類智能的所有技術(shù),從非常先進的技術(shù)邏輯到基本的if-then-else決策循環(huán)。任何使用規(guī)則進行決策的計算機都屬于這個領(lǐng)域。
一個簡單的示例是可以幫助我們找到停車位置的應(yīng)用程序。每隔一段時間對司機位置的GPS讀數(shù)會計算出司機開車的速度。由一個基本的閾值系統(tǒng)來確定司機是在開車(例如,“如果速度大于20英里/小時或30公里/小時,則開始計算速度”)。當司機停車并斷開與汽車藍牙系統(tǒng)的連接時,應(yīng)用程序只會記錄下斷開連接時的位置。這是車停放的位置。除人工智能(電腦知道司機把車停在哪里)外,規(guī)則集非常簡單。
在更復(fù)雜的情況下,靜態(tài)規(guī)則不能簡單地插入到程序中,因為它們需要可以更改或不完全理解的參數(shù)。
一個典型的例子是在計算機上運行的聽寫程序。該程序被配置為識別字典中每個單詞的音頻模式,但它不理解語音的特定內(nèi)容——重音、音調(diào)、速度等。我們需要錄制一組確定的句子,以幫助該工具將已知單詞與讀單詞時發(fā)出的聲音匹配起來。這個過程叫作機器學習。
ML關(guān)心的是計算機需要接收一組處理后的數(shù)據(jù)以幫助更高效地執(zhí)行任務(wù)的任何過程。ML是一個廣闊的領(lǐng)域,但可以簡單地分為兩大類:監(jiān)督學習和無監(jiān)督學習。
1.監(jiān)督學習
在監(jiān)督學習中,用已知正確答案的輸入訓練機器。例如,假設(shè)我們正在訓練一個系統(tǒng)來識別礦井隧道中何時有人。配備有基本攝像頭的傳感器可以捕捉形狀,并將其返回給一個計算系統(tǒng),該系統(tǒng)負責確定形狀是人還是其他物體(比如一輛汽車、一堆礦石、一塊石頭、一塊木頭等)。
使用監(jiān)督學習技術(shù),成百上千的圖像被輸入到機器中,每個圖像都進行了標記(在本例中為人類或非人類)。這就是所謂的訓練集。
算法用于確定圖像之間的公共參數(shù)和共同點差異。比較通常在整個圖像的尺度上進行,或者逐像素進行。圖像被調(diào)整為具有相同的特征(分辨率、顏色深度、中心圖形的位置等),并對每個點進行分析。人類圖像在特定位置具有特定類型的形狀和像素(對應(yīng)于臉、腿、嘴等的位置)。將每幅新圖像與一組已知的“良好圖像”進行比較,并計算一個偏差,以確定新圖像與一般人類圖像的差異,從而確定顯示的是一個人類圖形的概率。這個過程叫作分類。經(jīng)過訓練,機器應(yīng)該能夠識別人類的形狀。
在實際進行現(xiàn)場部署之前,通常使用未標記的圖片對機器進行測試(根據(jù)使用的ML系統(tǒng),這稱為驗證或測試集),以驗證識別級別是否處于可接受的閾值。如果機器沒有達到預(yù)期的成功水平,就需要更多的訓練。
在其他情況下,學習過程并不是將其劃分為兩個或多個類別,而是尋找一個正確的值。例如,管道中石油的流速是由管道的大小、石油的黏度、壓力等幾個因素決定的。當使用測量值來訓練機器時,機器可以預(yù)測出新的、未測量的黏度的流速。這個過程叫作回歸;回歸預(yù)測數(shù)值,而分類預(yù)測類別。
2.無監(jiān)督學習
在某些情況下,監(jiān)督學習并不是機器幫助人類做出決策的最佳方法。假設(shè)我們正在處理來自小型發(fā)動機制造工廠的物聯(lián)網(wǎng)數(shù)據(jù)。生產(chǎn)的發(fā)動機中平均約有0.1%需要進行調(diào)整,以防止以后出現(xiàn)缺陷,我們的任務(wù)是在它們安裝到機器并從工廠發(fā)貨之前識別它們。
由于有數(shù)百個部件,因此可能很難檢測出潛在的缺陷,而且?guī)缀醪豢赡苡柧殭C器來識別可能不可見的問題。但是,我們可以測試每個發(fā)動機并記錄多個參數(shù),如聲音、壓力、關(guān)鍵部件的溫度等。一旦數(shù)據(jù)被記錄下來,我們就可以用圖像表示這些元素之間的關(guān)系(例如,溫度是壓力、聲音與轉(zhuǎn)速隨時間變化的函數(shù))。
然后,我們可以將這些數(shù)據(jù)輸計算機,并使用數(shù)學函數(shù)來查找組。例如,我們可以決定根據(jù)發(fā)動機在給定溫度下發(fā)出的聲音對其進行分組。操作這種分組的標準函數(shù)K-means集群可以找到一組發(fā)動機的平均值(例如,溫度的平均值、聲音的平均值)。
使用這種方法對發(fā)動機進行分組,可以快速發(fā)現(xiàn)屬于同一類別的幾種發(fā)動機(如鏈鋸式小型發(fā)動機、割草機式中型發(fā)動機)。所有相同類型的發(fā)動機產(chǎn)生的聲音和溫度與同一組的其他成員相同。在發(fā)動機分組中偶爾會有一臺發(fā)動機顯示出異常的特性(略微超出預(yù)期的溫度或聲音范圍)。這是我們用于手動評估的發(fā)動機。與這一確定過程相關(guān)的計算過程稱為無監(jiān)督學習。
這種類型的學習是無監(jiān)督的,因為事先沒有“好”或“壞”的答案。這是一個群體行為的變化,計算機可以學習到一些不同的東西。當然,發(fā)動機的這個例子非常簡單。在大多數(shù)情況下,參數(shù)是多維的。換句話說,要計算成百上千個參數(shù),并在多個參數(shù)中累積較小的偏差用于識別異常。
圖1顯示了這種分組和偏差識別邏輯的一個示例,繪制了3個參數(shù)(組件1、組件2和組件3),并發(fā)現(xiàn)了4個不同的組(集群)。我們可以看到一些點遠離各自的組。我們應(yīng)該對顯示這種“集群外”特性的單個設(shè)備單獨進行更仔細的檢查。
圖1 聚類和偏差檢測實例
3.神經(jīng)網(wǎng)絡(luò)
處理多個維度需要大量的計算能力。也很難確定要輸入哪些參數(shù),以及哪些組合變量會引發(fā)警告。同樣,監(jiān)督學習只有在訓練集很大的情況下才有效;訓練集越大,預(yù)測的準確性越高。這一要求在一定程度上使ML在20世紀80年代和90年代逐漸消失。訓練機器的過程通常被認為過于昂貴和復(fù)雜。
自21世紀初以來,廉價的計算能力以及對超大數(shù)據(jù)集的訪問(通過互聯(lián)網(wǎng)共享)使ML重新煥發(fā)了活力。與此同時,所使用的算法的效率也取得了巨大進步。
以采礦作業(yè)中的人體形狀識別為例。區(qū)分人與車很容易。計算機可以識別出人類有不同的形狀(如腿或手臂),而車輛沒有。區(qū)分人類和其他哺乳動物要困難得多(盡管非人類的哺乳動物在礦井中并不常見)。
同樣的道理也適用于區(qū)分小貨車和貨車。當我們看到它們時可以輕松分辨出來,但是訓練一臺機器來區(qū)分它們需要的不僅僅是基本的形狀識別。
這就是神經(jīng)網(wǎng)絡(luò)發(fā)揮作用的地方。神經(jīng)網(wǎng)絡(luò)是模擬人類大腦工作方式的ML方法。當看到一個人時,大腦的多個區(qū)域被激活,用來識別顏色、動作、面部表情等。大腦將這些因素結(jié)合起來,得出“看到的形狀是人類”的結(jié)論。神經(jīng)網(wǎng)絡(luò)模仿同樣的邏輯。信息經(jīng)過不同的算法(稱為單元)處理,每個算法負責處理信息的一個方面。一個單元計算的結(jié)果值可以直接使用,也可以輸入到另一個單元進行進一步的處理。
在這種情況下,神經(jīng)網(wǎng)絡(luò)有幾個層次。例如,處理人類圖像識別的神經(jīng)網(wǎng)絡(luò)可能在第一層有兩個單元來確定圖像是否有直線和銳角,因為車輛通常有直線和銳角,而人體沒有。
如果圖像成功通過第一層(因為沒有或只有一小部分的銳角和直線),第二層可能會尋找不同的特征(是否存在面孔、手臂等),然后第三層可能會將圖像與各種動物的圖像進行比較,并得出結(jié)論“該形狀是人(或不是人)”。神經(jīng)網(wǎng)絡(luò)之所以效率最高,是因為每個單元處理一個簡單的測試,計算速度相當快。該模型如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)的例子
相比之下,舊的監(jiān)督ML技術(shù)會在訓練階段將人體圖像與潛在的數(shù)十萬幅圖像進行逐像素比較,實現(xiàn)困難且成本較高(需要大量訓練),操作起來也比較慢。神經(jīng)網(wǎng)絡(luò)一直是許多研究工作的主題,其中多項研究和優(yōu)化工作已經(jīng)檢查了單元和層的數(shù)量、每層處理的數(shù)據(jù)類型,以及用于處理數(shù)據(jù)的算法類型和組合,以使處理特定應(yīng)用程序的效率更高。
圖像處理可以通過某些類型的算法進行優(yōu)化,而這些算法對于人群運動分類可能不是最優(yōu)的。在這種情況下,可能會發(fā)現(xiàn)另一種算法,它將徹底改變這些運動的處理和分析方式。從某種意義上說,神經(jīng)網(wǎng)絡(luò)依賴于這樣一種思想,即信息被分成幾個關(guān)鍵部分,每個組成部分都被賦予一個權(quán)重。
權(quán)重的比較共同決定了這個信息的分類(沒有直線+臉+微笑=人類)。當一個層的結(jié)果被輸入另一層時,這個過程被稱為深度學習(“深度”是因為學習過程不止有一個層)。
深度學習的一個優(yōu)點是,擁有更多的層可以實現(xiàn)更豐富的中間處理和數(shù)據(jù)表示。在每一層,數(shù)據(jù)都可以被格式化,以便下一層更好地利用。這個過程提高了整體結(jié)果的效率。
下一篇: STP收斂時間