不忘初心的領航員
這本書是我目前看過最滿足的一本書, 原本認為作者李飛飛博士(現任史丹佛大學電腦科學教授, 史丹佛大學以人為本AI研究院共同院長, 美國國家工程院院士及非營利組織 AI4ALL 創始人兼董事. 曾任 Google Cloud 人工智能暨機器學習首席科學家)會聚焦於AI相關技術, 運用及未來可能的發展. 但她還加上了一路以來的人生旅程, 與父母親的互動跟後來在美國受到許多亦師亦友的幫助, 適當的與她的職涯及研究交織寫入. 所以從這本書不但可以看到她的成長過程, 思維與韌性, 還可以她不時帶著謙卑的語氣侃侃而談她的研究成果跟連接. 書中不斷強調AI是以幫助人為目的且開發測試時要隨時檢驗模型是否有影響倫理和社會影響. 會讓人對AI的印象多了些溫度及細膩.
找自己
15歲的她隨父母親移民到美國, 有個充滿勇氣跟好奇心的父親跟對傳統束縛叱之以鼻的母親(她在書中是這樣描述的). 父親曾經是個電機工程師, 一家人落腳紐澤西後, 父親在台灣人開著店幫忙修理相機而母親是個收銀員. 一句英文也不會的李飛飛就開始她的美國高中生活. 她經歷過移民青少年歧視也看過同為移民的同學因暴力造成個性極大轉變. 這時出現人生中第一個貴人(高中數學老師),滿足了她在學習上的求知慾及校園生活上的安全感, 於是她可以專心於書本中(除了數學外, 老師推薦的各類書她都讀, 因為可以增加她的英文能力, 她是這麼想的). 高中時期的她在餐廳打過工, 做過清潔工也幫人遛狗, 高中每一門課對她都是英文課. 還偶爾要用當時彆腳的英文幫父母親翻譯. 一次與父母親的假日出遊到附近的普林斯頓大學, 也埋下了她想進這所學校的種子(因為她看到他偶像的雕像出現在校園中:愛因斯坦).
高中畢業後的她, 家裡依舊清寒, 志願是社區或是州立大學. 象徵式填了夢想中的普林斯頓大學, 竟然也真的拿到幾乎全額獎學金如願進入物理系. 開始了長春藤名校的生活, 此時, 書中的她還是不忘感謝她的高中老師及所遇到的貴人幫忙這個幾乎不會說英文的移民學生進到了夢想中的校園. 她開始有自信了.
就讀大學期間, 她母親健康出了問題(原本心臟就不好), 雖然醫生不建議再工作, 不過在意志力的堅持下又撐了一陣子. 沒有多久, 頂下來一間洗衣店(李飛飛說這是她人生第一個新創事業)要價十萬美元(向高中老師借了約八萬美金), 全家一起經營(父親早已失業許久). 李飛飛的大學生活也過的很辛苦, 穿著上, 學校宿舍洗衣間又很多不要的衣物(普林斯頓的學生家境都不錯), 三餐上, 沒錢參加學校的飲食俱樂部(書中提到, 普林斯頓大學有十多間飲食俱樂部, 有錢學生通常會在高年級時選擇加入). 社交上, 因沒法參加這些俱樂部, 自然也沒任何社交. 除了習慣性參加每週一次研究生與老師的下午茶會(因為茶會沒有人員管制), 與研究生聊天及一睹名師風采. 也因為沒有太多社交, 這樣也讓她就更有時間學習跟閱讀. 也因為喜歡看書, 她除了觀察到偉大的物理學家(書中提到薛丁格)晚期都會對生物學有興趣. 也因看了彭羅斯的”皇帝新腦”等連接了科學及人的心智的書籍,而引發了她對科學及人文的結合的興趣. 這些影響都可以從她這幾年的演講及訪談看出來.
一直認為電腦只是工具的她, 首先接觸到C語言是因為選了電腦科學這門課, 但真正讓她對影像識別, 認知神經學產生興趣的是她參與了一次夏季在柏克萊的實驗. 這實驗是將數個電極(可以想成心電圖用的貼片)植入到貓的大腦皮質, 再經由訊號轉換, 接進電腦軟體. 接著讓貓接受影片刺激並觀察神經元訊號變化, 最後觀看影片是否可以重建. 最後雖然重建影片模糊但她觀察到影像對應到視覺神經元訊號變化關係.
追著這道光
普林斯頓畢業後, 她遇到人生第一次選擇. 考慮到家裏狀況的她, 無法決定繼續唸研究所還是接受像高盛, 美林等優渥的工作. 後因母親的支持, 從史丹佛, 麻省理工和加州理工中, 還是選擇了心目中偶像們曾經教書的加州理工. 她選了神經科學和計算機工程為專題, 因為它們為建立機器學習人類視覺的基礎(在Caltech就讀期間, 為了就近照顧母親, 賣了洗衣店. 全家也搬到學校宿舍)
她的研究開始於我們所看到任何人事物的顏色, 形狀, 光影等細節是如何形成一個完整圖像的. (她的二個指導教授分別問過她, 如何跟色盲的人解釋紅色? 是否能將每幅畫歸納出一致性?). 研究過程中, 有學者發表研究結果為人是先能看出顏色再看出形狀, 也有學者直接就拿圖片讓受測者看, 而受試者一樣能描述圖片之重點. 而且這些測試結果都顯示出人類花很少時間就能看出來. 當然, 李飛飛團隊所設計的實驗就更複雜了, 題目會是問受試者一個需要思考問題並插入一風景圖片問受試者看到了什麼(雙重測試法), 假設受測者在不專心的情況下是否還是能快速回答正確答案及在圖片所看到. 測試結果是好的. 不過更重要的是, 他們發覺視覺的相關神經是以種類來分工的(例如: 專門識別頭, 專門識別身體等). 反應才能如此的快.
而真正驅使她往前的是, 她利用”單樣本學習” (one shot learning), 讓電腦可識別出正確的物件. 因為這個實驗是讓電腦去看多種類的樣本而每個種類的樣本數不多, 電腦只看過一次. 而不是讓電腦先看過多個樣本在同一種類上. 這個研究成果, 讓她在國際電腦視覺大會受到與會者重視. 另一方面, 由於李飛飛和她的指導教授都知道增加有用的數據(種類多:多樣性, 相同種類樣本數多:準確性)才是關鍵, 所以他們開始廣泛的收集圖像數據和加以手工標籤(為了保持一致的精準度). 從”Caltech 101” (加州理工學院101類圖像數據庫)擁有九千多張圖像, 分布在一百零一個類別. 一直到 “Imagenet” (當時, 李飛飛已是史丹佛教授, 所以學校也有經費支援)完成500萬張,分布在22,000個類別. 當時, 他們認為這個方向是正確的但沒有把握(例如: 以當時的運算資源要算多久, 這麼大的圖庫誰要下載?). 因此在2009年電腦視覺與圖型辦別會議(CVPR), 那時是第一次Imagenet有機會介紹給全世界, 但並沒有引起太大迴響.

閃閃發亮
技術來說, 當圖庫變大, 以往表現好的演算法是會失靈. 因為種類分得更細, 同種類樣本數更多, 灰色地帶變小. 所以要如何讓大家願意開發新的演算法或改善既有的演算法在這個圖庫呢? 一次因緣機會, 一位同為電腦視覺教授的提議”大家都利用這個圖庫來辦一個比賽”, 看看大家使所用演算法在同一個資料集誰可以讓物件識別正確率最高.
Note: 比賽用的資料集圖庫為 “ImageNet Large Scale Visual Recognition Challenge (ILSVRC)”, 圖片及種類有再經過篩選約1 million images, 1000 categories. (2010–2017)
開始, 成績好的大部分還是當時流行的演算法(SVM). 一直到Alexnet, 使用卷積神經網路(CNN: convolutional neural network), 讓整個準確率到達85%, 雖然和人類(97%)有一段距離, 但已經是非常大的進步. 卷積神經網路並不是新的演算法, 早期大家所熟悉的楊立昆(Yann LeCun: 圖靈獎, 現為Meta首席人工智慧科學家)所開發的辨識手寫數字就是使用CNN(LeNet). 整體而言, 能使舊的演算法可以起死回生最重要的因素還是輝達的GPU和Imagenet大量標籤過的資料.
也由於Alexnet有了突破性的發展, Googloe, 微軟也開始大舉招募研究生,朝向愈來愈多層的神經網路致敬. 從機器學習時期邁向類神經網路學習(深度學習).


有了Imagenet的經驗後,李飛飛的學生後續使用Google街景圖與汽車銷售網站來收集各類型汽車的圖片收集了龐大的汽車圖庫, 配合美國人口普查局的公開資料, 做來預測某城市的共和黨或民主黨的投票傾向, 平均教育程度等結果. 或是利用照片和加入人為標注的敘述, 可以做到隨意一張照片就會說明這幅畫(作者: Andrej Karpathy: Previously Director of AI @ Tesla, founding team @ OpenAI).


另外, 也因為長年來李飛飛因母親健康問題常進出醫院, 使她也想到是否能利用AI在醫護照料上. 於是她也開啟了一連串AI與醫療上的結合, 例如: 在醫院設置深度感測器來追蹤護理人員洗手的狀況及行徑軌跡避免在壓力與疲勞不斷累積下因為忘記洗手所造成的院內感染. 又或者是利用影像識別追蹤及計算物件總量來降低手術期間遺留物件在病人體內.


當AI隨著層出不窮的應用變成話題, 大型科技公司也開始開出高薪向校園大舉獵才, 書中還特別提到Uber為了建立自駕車團隊, 從卡內基美隆大學挖走了四十位機器人專家, 還差點搞倒一個系. 李飛飛在書中寫出了她的擔心, 因為這群學生還年輕, 渴望新知, 培養本職學能. 尤其他們接下來會是AI 相關應用的開發者, 會不會只在乎產品而忽略偏差(Bias).
不過, 她也想看看業界利用AI做了哪些應用. 所以她利用了學術休假, 選擇擔任Google Cloud AI首席科學家, 見識到了完整的人才團隊, 先進的設備及最重要的資料數據資源. 她也領悟到AI慢慢走向特權(Google 一個 神經網路架構搜尋(neural architecture search)的案子, 需要用到800個GPU).
成為北極星
結束了短暫的Google旅程, 她回到熟悉的校園. 她有幾個議題或許值得後續觀察:
各式各樣的倫理問題: 例如資料的偏差(種族, 性別, 公共政策等), 系統產生出來的真偽, 主觀意識的判斷. 尤其她發現到企業只會去運用人才產出需要的產品, 而不會去塑造人才有相應的人文思維. 所以她成立了史丹佛以人為本人工智能研究院(Stanford Institute for Human-Centered Artificial Intelligence), 簡稱史丹佛HAI. 核心成員包含法律, 哲學, 電腦科學, 人文學, 政治學等. 希望結合不同觀點儘量避免產生偏差Bias.
由政府成立公用AI平台, 確保資料及技術可供所有人使用. 而不會被企業, 特殊學校壟斷. 目前她所推動的國家研究雲(National Research Cloud, NRC, 一個AI研發平臺,使用公家資源進行AI研究, 確保AI領域不會永遠被科技巨擘, 甚至像名校壟斷. 她自己所成立的”AI4ALL”也是一個非營利的組織, 開放大學實驗室給所有對AI有興趣的人可以免費獲得AI訓練.
後記
在這篇心得中其實有跳過很多重要環節, 比如他參加第一次國會的書面證詞(眾議院科學與太空暨科技委員會), 她是坐在加護病房外面一張窄小的椅子上寫的.
最近她的演講的主題, “Building AI to see what human see, Building AI to see what human don’t see, Building AI to see what human want to see 也都繞著這本書的架構. 而她新的研究方向 “具身智能(Embodied Intelligence)”, 應該是將目前成熟的視覺, 語言模型接入機器人, 訓練機器人.
最後, 借用書中的一段話做為結尾. 保持好奇心, 找尋自己的北極星.