姚夢娜提出的這個問題,對於常浩南來說,不難理解。
隻是很難解決。
真要說起來的話,這涉及到文本挖掘、數據可視化、信息檢索、數據挖掘、機器學習乃至人工智能等一係列問題。
如果真做到姚夢娜所設想的那樣全自動化生產,那就是工業40了。
在1999年這個時間點上,顯然不大現實。
但不可能完全實現這一整套東西,並不意味著其中沒有可以作為突破口的部分。
比如數據挖掘和信息檢索,就是千禧年附近很火熱的研究方向。
這就導致如今他腦子裡空有一大堆名詞,但卻不知道哪是破局的關鍵――
常浩南放下隻吃了一口的羊湯麵,蹭地站起身,快步離開食堂。
正在低頭吃飯的姚夢娜一愣,旋即意識到常浩南這還是在思考剛才她提出來的問題。
常浩南思索半晌,又在紙上寫下了三個基本條件
但與此同時,這一組數據又往往不隻能描述這一個含義。
給定一組高維數據xrd,n為數據樣本個數,d為高維數據的維數。
實際上,他此時就麵臨著無法從大量繁雜信息中提取出有價值信息的困境。
但常浩南仍然沒有動筷子。
“信息……”
而反過來,現實中收集到的信息,在多數情況下,本身就是已經展開過的高維數據。
雖然她覺得在兩位博士麵前有點班門弄斧,但最後還是沒忍住
儘管仍然沒有給出完整的思路,但是,他至少已經把三個抽象的基本條件解析成為了一個具體的數學問題。
3、提取到高質量的數據特征,提升後續的數據表示和分類任務的效果。
“你們說……”
朱雅丹滿腦袋問號地抬起頭,但看著常浩南思考的樣子,很有自知之明地沒有打擾。
再假設x中的數據樣本來自於或近似來自於低維嵌入空間中的數據yrd。
尋找一個從高維觀測空間到低維嵌入空間的映射關係,使得yi,以及一個一對一的重構映射關係1,使得xi1。
“調料包大概占整包方便麵重量的10左右,如果少放或者多放,那應該很容易檢測出來。”
而對於稍複雜一些的情況來說,要完全描述一個含義,往往需要一組數據。
而係統,則首先需要構建出一個完整且可行的思路出來。
“人類的大腦能夠通過某種辦法解析高維數據,從而獲取對外部世界的感知。”
實際生活中麵臨的,其實大多數也是這種問題。
1、對原始高維數據進行壓縮,降低原始高維數據的維度,進而節省存儲空間,同時也降低高維數據的計算複雜度。
十五分鐘後,三人已經圍坐在了食堂二層的一個圓桌旁邊。
回到辦公室的常浩南重新找到了剛才那張紙。
不如先放鬆一下,換個思路。
在近70年前,美國統計學家哈羅德霍特林就已經提出過將高維數據進行降維的主成分分析法。
不知不覺間,常浩南就在辦公桌前枯坐到了快要吃午飯的時候。
給方便麵裡麵塞調料包和給飛機打鉚釘,在數學模型上其實是差不多的。
實際上,在常浩南重生之前,飛機設計和製造領域已經開始應用這方麵的技術,他本人也接觸過不少。
他認為方差越大的信息越多反之的信息越少,於是通過原分量的線性組合構造方差大、含信息量多的若乾主分量,再進行矩陣奇異值分解,實現數據維數的降低。
沒有靈感,說啥都沒用。
常浩南搖搖頭否定道。
這裡算是個點餐製的小灶,價格比下麵的大食堂貴一些,加上還要多上一層樓,因此來這裡吃飯的人並不算多。
常浩南不是那種死鑽牛角尖的人。
而生產方便麵的企業,顯然不太可能有多麼高大上的設備和技術。
在三個基本條件下方又寫下了幾行字。
“生產方便麵的企業,是怎麼保證不漏裝或者多裝調料包的?”
其核心目的是從海量數據庫和大量繁雜信息中提取出有價值的知識,並進一步提高信息的利用率。
餐桌周圍又恢複了平靜,隻剩下偶爾發出的微弱咀嚼聲。
但到了99年這會,大學生在宿舍備上幾袋甚至一箱,都不算什麼稀罕事了。
仍然沒能想出一個很好的思路。