台球博士!
雖說趙施言並不覺得自己像淩誌說的那樣誇張,像太陽一樣照耀著周圍的人。但是她同樣沒覺得淩誌在說謊或者應付她,她能感覺得到男生心中的真誠,所以她還是很開心的,誰不喜歡彆人誇自己啊。
趴在桌上的她現在想想,她形容淩誌是個“乾淨”的男孩子。剛剛說出口之時,確實是憑借感覺脫口而出的。但現在仔細回憶回憶前兩次的碰麵,她愈發肯定自己的形容十分準確。如果光說外表的話,男孩確實不是長得很帥的那種。單眼皮,小眼睛,戴個眼鏡,甚至還有少許鼻毛和沒刮乾淨的胡子,一看就是一個普通的學生形象。然而他打起台球和聊起台球時的那種認真的眼神,出杆時不急不躁的流暢的動作,讓她覺得打球就應該是如此,而不是摻雜一些彆的東西。隻是偶爾對自己好球的誇讚和說自己壞球的運氣差,她覺得十分好笑。
“真是個傻子,每杆沒打好的球都是運氣差嗎”
趙施言沒好氣地想到。所以,她願意跟這樣的男孩做球友,畢竟球房裡想找到跟自己同水平的姑娘幾乎不可能。不過現在,她覺得她不光願意跟男孩做球友,甚至……
念頭一起,她迅速不自覺地搖了搖頭。她也有著自己的煩惱,隻不過這些被她用她固有的氣場很好地掩飾住了。
過了一會兒,她抬起頭,拍了拍自己的臉蛋。
“嗯,不能再這樣了,這一點都不像我。”
趙施言借住的學姐的宿舍是個單人間,學姐暑假外出實習,而她應該在學姐實習回來前就搬到新宿舍了。她準備用從學姐那裡借來的校園卡洗個澡,希望能順利地忘記煩惱。
……
第二天,淩誌早早來到實驗室。今天周六,實驗室也會有同學過來,但比一般時候來的晚一些。淩誌並沒有像往常一樣打開論文,而是打開一款接單軟件。
自從他學會給自己采集數據之後,淩誌覺得自己的這項技能不能被埋沒啊,於是給自己找了個活兒乾,每周末給一些客戶整理一些公開數據集,不會占據自己太多的時間。
淩誌在線掛了一會兒,今天的第一個客戶出現了。
“您好,在嗎”
“在的親,請問您想要采集什麼數據呢”
“您好,請問可以幫忙分析數據嗎”
分析數據啊,淩誌不是專門做數據分析的,但是能不能做要看情況。如果隻是做一些簡單的統計的話……
“您可以把您的需求發出來,我看看能不能做。”
“好的,我是想計算一下行業內每兩個公司之間的相似度……”
淩誌聽著客戶的需求,也不時提出一些疑問。回答完之後根據數據量給出了一個報價以及預期交付時間,客戶並沒有多砍價,就這麼敲定了。
實際上計算文本相似度的方法有很多,比如統計兩個文本中有沒有詞語同時出現,出現頻率是否相近,標點符號使用頻率是否一致等等。但這些統計都是表層的統計,句子語義深層次的相似度沒有辦法通過這種辦法來計算。比如“開心”和“快樂”是同一語義,相似度為097,而“開心”和“傷心”則是相反語義,相似度為002。如果用最表層的統計方法是沒辦法得出上述結論的。所以在當下,深度學習方法則成為主要的學習句子深層次語義的方法。
淩誌並不想糊弄客戶,他想既然要做那就儘量做到最好。雖然客戶在這一塊並不是專業的,也並不知道計算相似度都有哪些方法,更沒有去問淩誌打算如何計算,但淩誌依然想用深度學習方法來幫助客戶準確計算每個公司的相似度。
淩誌看著客戶發來的每個公司的代表產品,找到了之前自己訓練好的一份詞向量表,先把產品名用分詞工具分詞,再對應到詞向量表中,最終將兩個公司之間的產品所對應的向量進行兩兩歐氏距離計算,最終一平均得到了每一對公司之間的相似度……
感覺也不複雜,但是不知不覺一天就過去了。淩誌整理了一下數據,發給了客戶。
“您好,相似度的計算已經搞好了,您看您還滿意麼”
過了一會兒,客戶回複道
“[拱手]整理得太細致了,謝謝您。不過您是怎麼計算相似度的呢如果方便的話能不能告訴我一下,我想寫進我的介紹推文裡。”
“哦哦,其實也不複雜,我用的是詞向量計算的,而詞向量是用深度學習方法訓練出來的……”
淩誌仔細地打了一大段文字,大概介紹了一下原理,沒有說得太細。實際上詞向量的訓練過程是深度神經網絡根據詞的上下文來推斷出來的,比如說,“開心”這個詞周圍經常出現的詞彙與“傷心”就截然不同。所以深度語義,本質上也是由他的上下文來決定的。這也是淩誌大致解釋給客戶的內容。
至於如何根據上下文推導出詞向量,上下文的範圍界定到底有多廣,淩誌就沒有細講,講了客戶也不關心,他隻會挑重點說。
“謝謝您哈,對了,其實我這邊還有一大批數據需要計算相似度,您能不能教我使用代碼呢這樣以後我就不用麻煩您了。”
教代碼啊。淩誌有些腦殼疼,倒也不是說不行,隻不過教不是計算機行業的人運行代碼可能會出現各種各樣的小問題。但他也沒有拒絕,這種需求都是常態,一般客戶要了數據之後,如果想要代碼,淩誌都會免費給他,而且還耐心地教客戶安裝各種環境。
“也行,我給您發個文檔,您先按裡麵的說明安裝一下。”
淩誌把以前寫好的文檔簡單改改,發了過去。
過了一會兒。
“不好意思,我這邊安裝nsi包的時候報錯了,……”