《數(shù)學之美》讀書筆記感觸1 這本書一共3章,主要介紹了這些數(shù)學方法:統(tǒng)計方法、統(tǒng)計語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數(shù)、圖論、網(wǎng)頁排名技術、信息論、動態(tài)規(guī)劃、余弦定理、矩陣運算、信息下面是小編為大家整理的2023年《數(shù)學之美》讀書筆記感觸3篇,供大家參考。
《數(shù)學之美》讀書筆記感觸1
這本書一共3章,主要介紹了這些數(shù)學方法:統(tǒng)計方法、統(tǒng)計語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數(shù)、圖論、網(wǎng)頁排名技術、信息論、動態(tài)規(guī)劃、余弦定理、矩陣運算、信息指紋、密碼學、搜索技術、數(shù)學模型、最大熵模型、拼音輸入法、貝葉斯網(wǎng)絡、句法分析、維特比算法、各個擊破算法等。從第一章開始其明了幽默的語言就深深的吸引了我,讓我覺得如果早一點看這本書,也許數(shù)學之于我就是另一番天地。
第一章里作者從原始人類的通信方式開始入手,人類最早利用聲音進行的通信依賴于開篇給出的"編碼—傳輸—解碼"的基本原理,指出原始人的通信方式和今天的通信方式?jīng)]什么不同,這世界上近現(xiàn)代最普遍的原理大部分都在人類發(fā)展的歷史上被無意識的使用著。
第六章信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
這本書里也能找到不少在學的課程知識,如大學專業(yè)課里,數(shù)電總是要比模電簡單不少,而自然界里大部分的信號都屬于模擬信號。所謂模擬信號,是指從時間和數(shù)值兩種維度上看來都是連續(xù)變化的信號。在實際電路中,模數(shù)轉換是一個很重要的過程,將預處理的模擬信號經(jīng)過模數(shù)變換為數(shù)字信號,然后進行數(shù)字信號處理。而數(shù)字化處理有很多優(yōu)點,比如功能強大、抗干擾能力強、易于傳輸?shù)取?/p>
簡而言之,如果沒有數(shù)學,就沒有數(shù)字信號處理和傳輸?shù)母拍?,而?shù)字信號傳輸在當下大規(guī)模的集成電路里是必不可少的,這是通信成功的基本要求。
作者把生活中遇到的復雜的問題,以簡單清晰,直觀的模型或者公式展現(xiàn)出來。我們可能過于注意生活中的種種奇妙現(xiàn)象,往往忽略了追求其理論邏輯的演繹,而這,也是大部分問題的主要根源。
羅素曾經(jīng)說過:"數(shù)學,如果正確地看,不但擁有真理,而且也具有至高的美";愛因斯坦也曾說過:"純數(shù)學使我們能夠發(fā)現(xiàn)概念和聯(lián)系這些概念的規(guī)律,這些概念和規(guī)律給了我們理解自然現(xiàn)象的鑰匙。"數(shù)學在所有科學領域起著基礎和根本的作用。"哪里有數(shù),哪里就有美"。在這里,我也想把《數(shù)學之美》真誠推薦給每一位對自然、科學、生活有興趣有熱情的朋友,不管你是從事職業(yè),讀一讀它,會讓你受益良多。
吳軍老師在《數(shù)學之美》中提到:"這本書的目的是講道而不是講術。很多具體的搜索技術很快會從獨門絕技到普及,再到落伍,追求術的人一輩子工作很辛苦。只有掌握了搜索的本質和精髓才能永遠游刃有余"?;氐轿覀?nèi)粘5纳钪?,需要學習的東西、技術太多太多,如果一味地只為去追技術的腳步,那么我們也會很累很累。然而基本的原理卻是沒有怎么變化的。只見森林,不見樹木,難免迷失;站在高處向下看,也許我們一直看不到底,但是站在底處卻是可以看見底的。
《數(shù)學之美》讀書筆記感觸2
我在想,為什么我們要學習數(shù)學?也許這個問題成年人有一萬個答案,可是當我們第一次走進教室,學習數(shù)學的時候,大概率還是個孩子,你怎么跟一個孩子解釋為什么要學習數(shù)學呢?我把這個問題拋給了一個朋友,他說:“為了提高思維邏輯能力,這是我初中老師在第一節(jié)數(shù)學課上告訴我們的”?;蛘咭晃?歲的小朋友又會問:“什么是邏輯能力呢?”
也許從出生第一天,我們就一直在被動的接收一些東西,父母的勸導,老師的傳授,可5歲的孩子還是會把玩具散落一地,6歲的孩子仍然會因為父母不給買玩具而嗷嗷大哭,無論你怎么勸導一個人,怎么勸誡一個人,他可能仍然會犯你認為會出現(xiàn)的錯誤。我記得有位教育專家這么說:“你告訴寶寶他把玩具弄壞了,就等于丟了10個棒棒糖”,從此以后這個寶寶可能會更加珍惜玩具。這個方法很簡單,但是貌似最有效。數(shù)學是什么?數(shù)學不就是把復雜的東西簡單化么?
現(xiàn)在我們再回答前面的問題:為什么我要學習數(shù)學?我們可以這么跟5歲的小朋友說:“媽媽給你10元錢,讓你買醬油,醬油7元、棒棒糖1元一個,剩下的錢你可以買幾個棒棒糖?”或許想吃棒棒糖的`就會苦思冥想一番,或許未來媽媽真的給他10元錢去買醬油,結果回來就變成了一瓶醬油和3個棒棒糖?;蛘咴龠^一段時間,這位小朋友會選擇6元的醬油,因為可以獲得4個棒棒糖了。他這么計算著:7+3和6+4都可以等于10,那么如果要必須買醬油的情況下,1+9也可以等于10。我們都知道也有1元的袋裝醬油,于是9個棒棒糖到手了。任何知識的魅力都在于自我的發(fā)現(xiàn),只有你對它產(chǎn)生了無限的興趣,你就會不斷的發(fā)現(xiàn)它的美,《數(shù)學之美》也可以變成《物理之美》。
有些人會說,上面的例子是利益驅動型,不是興趣驅動型,對于一個孩子來說,你能指望他向*那樣:“我需要的不是物質世界,我需要的是精神世界?”5歲寶寶最喜歡做得事情就是在吃和玩上面,請問,成年人不也是如此么?這就是天性。只不過成年人的自控能力足夠大罷了。
我們回到書本上,這本書是否合適自己?如果沒有專業(yè)的數(shù)學知識,很難讀懂。但是它又有著無限的魅力,讓你不自覺的讀下去,為什么?因為“數(shù)學之美”,雖然大多數(shù)人看不懂里面的公式,但是能夠明白數(shù)學能解決的問題:概率統(tǒng)計學能夠解決自然語言處理、布爾代數(shù)能解決搜索引擎的問題、有限狀態(tài)機和動態(tài)規(guī)劃能解決地圖問題、向量+特征向量+余弦定理能解決自動新聞分類問題、最大熵模型解決金融問題,看著看著我就莫名的產(chǎn)生了一種想要學習算法的沖動,這不就是本書的意義所在么?
《數(shù)學之美》讀書筆記感觸3
在網(wǎng)上看到有人推薦吳軍博士的《數(shù)學之美》,盡管我從事社會科學研究,但對數(shù)學的推崇一直如此,所以買來一讀,我的真切體驗正如吳軍博士在書的后記中所說,把自己“境界提升了一個層次”。
那么,對我而言,到底提升了什么境界呢?
首要的肯定是思想境界。在未讀這本書之前,我知道對于這個世界的事件形成的信息集合,人類只有兩種方式可以表達,一個是數(shù)字,一個是語言。整個實數(shù)的集合是無窮個,而且每個數(shù)字都是唯一的;整個世界中的事件也是無窮個的,而且每個事件也時獨一無二的,這樣數(shù)學中的數(shù)字集合與世界中的事件集合就構成一個一一對應的關系,所以研究數(shù)字之間的關系,實際上就是在研究世界中事件之間的關系。語言中的概念和世界中的事件之間也是可以構成一個對應關系的,但問題是,語言中概念的集合是有限的,所以它和數(shù)字集合的對應顯然只能是部分對應。
計算機科學的發(fā)展,人類需要把語言處理成數(shù)字,因為計算機只能識別數(shù)字信號,所以“語言的數(shù)字化”成為計算機產(chǎn)生以來發(fā)展最快、而且最有創(chuàng)新性的領域,而許多華人科學家成為了這個領域的頂尖專家,如李開復,吳軍博士是卓越的科學家之一。至此我才感到,在計算機主導的世界中,信息化就是數(shù)字化,而最難的數(shù)字化、也是最有成就的數(shù)字化,就是對人類自然語言的數(shù)字化,因為人類的信息幾乎100%是用語言承載、傳播的,計算機要與人對話,變成智能化的機器,首先要解決的就是語言的數(shù)字化問題。但我們在電腦上自如地輸入文字時、或者拿著手機通話時,我們跟本沒有意識到,那些卓越的語言科學家,早已經(jīng)把我們的語言,轉化成數(shù)字信號,通過輸入、處理、解碼的方式,讓我們無障礙地聯(lián)絡、工作。
我似乎感到,語言與數(shù)字的關系,就是人與自然關系的接口。套用古希臘畢達哥拉斯學派的觀點,加上我的理解,即是,數(shù)是萬物的本原,語言是人的本原!
吳軍博士似乎也在提升我對方法的認識境界??茖W研究的思考方式,習慣遵循本質、規(guī)律、連續(xù)性思維,在語言學研究的早期,人類為了讓計算機識別語言,采用建立語言規(guī)則和語言規(guī)則數(shù)據(jù)庫的辦法,但最終以失敗告終(20世紀50—70年代),70年代后科學家采用了語言統(tǒng)計模型,研究取得了突飛猛進。語言統(tǒng)計模型的勝利,再一次證明了宇宙量子模型的信念,世界是不連續(xù)的隨機性的粒子構成,人類數(shù)千年文明進化出來的語言系統(tǒng),就是動態(tài)的隨機概率事件。其二,物理思維再也難逃牛頓的經(jīng)典本質思維方法,即找尋到百分之百確定性的規(guī)律,而信息論思維是研究如何把握不確定性現(xiàn)象,利用概率統(tǒng)計是不二法門。其三,語言本質上就是信息傳播,只有從通信模型視角才能真正理解計算機的功能,對語言的編碼、處理、傳輸、解碼是計算機的強項,計算機是永遠不可能理解語言的意思的。
在《數(shù)學之美》中,吳軍博士對他的老師、師兄弟、同事的經(jīng)歷、掌故進行了敘述,讓我們了解到這些世界一流的學科家、技術精英們的為人處世品質、鮮明個性、科學素養(yǎng)及其管理風格。例如賈里尼克對博士生的嚴酷淘汰,馬庫斯對學生的寬宏大度,但我感到他們有一樣東西是共同的,就是對科學創(chuàng)造、頂尖人才的識別和器重,甚至是無條件的包容。如此為人的境界才是根本,因為偉大的科學創(chuàng)造畢竟是人做出來的,只有崇高的人文精神之下才能造就頂尖的人才、一流的科學和技術。
觀國內(nèi)的學說界,官風盛行、人情充斥,與這些一流學說群對科學創(chuàng)造的賞識、對個性人才的包容,對科學探索的熱誠,可謂相去甚遠。
看來,我們只能寄希望于年輕一代,但愿吳博士的《數(shù)學之美》,能讓我們的學子們,初步體驗到科學精英們卓越的才智與情懷。
《數(shù)學之美》讀書筆記感觸3篇擴展閱讀
《數(shù)學之美》讀書筆記感觸3篇(擴展1)
——《數(shù)學之美》讀書筆記10篇
《數(shù)學之美》讀書筆記1
《數(shù)學之美》是一本領域相關的數(shù)學概念書,生動形象地講解了關于數(shù)據(jù)挖掘、文本檢索等方面的基礎知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關鍵是要從中學到道----解決問題的方法,而不僅僅是術。書中也啟發(fā)式的引導讀者形成自己解決問題的道。
下面記錄一下自己讀這本書的一些感想:
第一章《文字和語言vs數(shù)字和信息》:文字和語言中天然蘊藏著一些數(shù)學思想,數(shù)學可能不僅僅的是一門非常理科的知識,也是一種藝術。另外,遇到一個復雜的問題時,可能生活中的一些常識,一些簡單的思想會給你帶來解決問題的靈感。
第二章《自然語言處理----從規(guī)則到統(tǒng)計》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風順的,這是自然界的普遍真理吧!
第三章《統(tǒng)計語言模型》:自然語言的處理找到了一種合適的方法---基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學方法給它一個很小的概率。以前學概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學的魅力就在于將復雜的問題簡單化。
第四章《談談中文分詞》:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。
第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面某幾個時刻的狀態(tài)有關?;诖罅繑?shù)據(jù)訓練出相應的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會涉及到一些經(jīng)典的算法(維特比算法等)。關于這個模型,沒有實際實現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。
第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學術成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關鍵是他的思想和他的道。賈里克尼教授治學嚴謹、用心對待自己的學生,對于學生的教導,教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學習,最后在辦公桌前過世了。讀了這章我總結出的一句話是“思想決定一個人的高度”。
在這章中對于少年時的教育,以下幾點值得借鑒:
1、少年時期其實沒有必要花那么多時間讀書,他們的社會經(jīng)驗、生活能力以及在那時樹立起的志向將幫助他們一生。
2、中學時花大量時間學會的內(nèi)容,在大學用非常短的時間就可以讀完,因為在大學階段,人的理解力要強很多。
3、學習(和教育)是一個人一輩子的過程。
4、書本的內(nèi)容可以早學,也可以晚學,但是錯過了成長階段卻是無法補回來的。
第八章《簡單之美----布爾代數(shù)和搜索引擎的索引》:布爾是19世紀英國的一位中學教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中出現(xiàn)而設置為0和1,為了適應索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10-20個不好的搜索結果,積累一段時間才有感覺。有時候,學習、處理問題,可以從不好的方面入手,效果可能更好。
第九章《圖論和網(wǎng)絡爬蟲》:圖的遍歷分為“廣度優(yōu)先搜索(Breadth-FirstSearch,簡稱BFS)”和“深度優(yōu)先搜索(Depth-FirstSearch,簡稱DFS)?;ヂ?lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務器的任務,這就是網(wǎng)絡設計和程序設計的藝術了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復下載。另外,在圖論出現(xiàn)的很長一段時間里,實際需求的圖只有幾千個節(jié)點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學方法就是這樣,看上去沒有什么用途,等到具體的應用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復雜的東西,需要很好的設計。
第十章《PageRank----Google的民主表決式網(wǎng)頁排名技術》:搜索返回了成千上萬條結果,如何為搜索結果排名?這取決與兩組信息:關于網(wǎng)頁的質量信息以及這個查詢和每個網(wǎng)頁的相關性信息。PageRank算法來衡量一個網(wǎng)頁的質量,該算法的思想是如果一個網(wǎng)頁被很多其他網(wǎng)頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關重要的。該算法并不難,可是當時只有佩奇和布林想到了,為什么呢?
第十一章《如何確定網(wǎng)頁和查詢的相關性》:構建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質量以及確定一個網(wǎng)頁和某個查詢的相關性。搜索關鍵詞權重的科學度量TF—IDF,TF衡量一個詞在一個網(wǎng)頁中的權重,即詞頻。IDF衡量一個詞本身的權重,對主題的預測能力。一個查詢和該網(wǎng)頁的相關性公式由詞頻的簡單求和變成了加權求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。看似復雜的搜索引擎,里面的原理竟是這么簡單!
第十二章《地圖和本地搜索的最基本技術——有限狀態(tài)機和動態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機,當用戶輸入的地址不太標準或有錯別字時,希望進行模糊匹配,提出了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機和動態(tài)規(guī)劃問題需要看相關的算法講解,才能深入理解,目前對其并未完全理解。
第十三章《GoogleAK-47的設計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進的目標。辛格要求對于搜索質量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學。
第十四章《余弦定理和新聞的分類》:將新聞根據(jù)詞的TF-IDF值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。
第十五章《矩陣運算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結果,在利用余弦計算得到比較精確地結果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。
第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數(shù)產(chǎn)生器,常用的算法有MD5或者SHA-1等標準。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1.8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。
第十七章《由電視劇《暗算》所想到的——談談密碼學的數(shù)學原理》:RSA加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數(shù)學思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統(tǒng)計獨立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。
第十八章《閃光的不一定是金子——談談搜索引擎反作弊問題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術好,而是到它那里作弊的人少。
第十九章《談談數(shù)學模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。一個正確的數(shù)學模型應該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。
第二十章《不要把雞蛋放在一個籃子里——談談最大熵模型》:對一個隨機事件預測時,當各種情況概率相等時,信息熵達到最大,不確定性最大,預測的風險最小。最大熵模型的訓練非常復雜,需要時查看資料做進一步的理解。
第二十一章《拼音輸入法的數(shù)學原理》:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復,而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的*均最短碼長。全拼不僅編碼*均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實現(xiàn)拼音轉漢字的有效算法,而且可以轉換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關鍵就在于建立更好的語言模型??梢愿鶕?jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學模型。要做出最有效的輸入法,應該自覺使用信息論做指導。
第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務;另一個是將這個方法發(fā)揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學生關鍵的指導;寬松的管理方式,培養(yǎng)各有特點的年輕學者;是一個有著遠見卓識的管理者。他的學生為人做事風格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·*。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質和追求。
第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學原理在于完全隨機的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進行簡單的算術運算,因此速度非???。《編程珠璣》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。
第二十四章《馬爾科夫鏈的擴展——貝葉斯網(wǎng)絡》:貝葉斯網(wǎng)絡是馬爾科夫鏈的擴展,由簡單的線性鏈式關系擴展為網(wǎng)絡的關系,但貝葉斯網(wǎng)絡仍然假設每一個狀態(tài)只與它直接相連的狀態(tài)相關。確定貝葉斯網(wǎng)絡的拓撲結構和各個狀態(tài)之間相關的概率也需要訓練。在詞分類中,可以建立文章、主題和關鍵詞的貝葉斯網(wǎng)絡,用來得到詞的分類。貝葉斯網(wǎng)絡的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網(wǎng)絡導出的模型是非常復雜的。
第二十五章《條件隨機場和句法分析》:句法分析是分析出一個句子的句子結構,對于不規(guī)則的句子,對其進行深入的分析是很復雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數(shù)學模型。條件隨機場與貝葉斯網(wǎng)絡很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網(wǎng)絡是有向圖。條件隨機場的訓練很復雜,簡化之后可以參考最大熵訓練的方法。對于條件隨機場的詳細參數(shù)及原理還不理解。
第二十六章《維特比和他的維特比算法》:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現(xiàn)實時的輸出,這看似簡單,但在當時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣出去,并應用到了實際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDMA技術霸占了3G的市場,可見遠見的洞察力是多么的重要。
第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實就是K均值聚類問題,設置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標函數(shù)如果是個凸函數(shù),則一定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應該考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標的過程。
第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據(jù)廣告的預估點擊率來客觀的推送廣告收入多。點擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數(shù)模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。
第二十九章《各個擊破和Google云計算的基礎》:分而治之,各個擊破是一個很好的方法,Google開發(fā)的MapReduce算法就應用了該方法。將一個大任務分成幾個小任務,這個過程叫Map,將小任務的結果合并成最終結果,這個過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復雜的事情了。可見大量用到的、真正有用的方法往往簡單而又樸實。
附錄《計算復雜度》:計算機中復雜度是以O()來表示的,如果一個算法的計算量不超過N的多項式函數(shù),則稱算法為多項式函數(shù)復雜度的(P問題),是可以計算的。若比N的多項式函數(shù)還高,則是非多項式問題,實際上是不可計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研究的焦點,因為現(xiàn)實中好多問題都是NP問題。另外還有NP-Complete問題(NP問題可以在多項式時間內(nèi)規(guī)約到該問題)和NP-Hard問題,對于這兩種問題,需要簡化找到近似解。
整體上,《數(shù)學之美》這本書讓我了解了很多文本處理,數(shù)據(jù)挖掘相關的知識,學到了很多。其中,簡單美以及一些科學家的大師風范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!
《數(shù)學之美》讀書筆記2
讀完本書,第一感受:次奧!原來數(shù)學如此多的原理模型概念都可以用去解決各種IT技術問題啊。特別是語言識別和自然語言處理這類問題完全就是建立在數(shù)學原理之上的??傊?,這本書就是用非常深入淺出的話去說明如何用數(shù)學方法去解決計算機的各種工程問題。這是一本講道,而不是術的書。 要完全讀懂這本書,我覺得至少需要掌握這三門課:高等數(shù)學,離散數(shù)學,還有概率論與數(shù)理統(tǒng)計。唉..我當初數(shù)學學得太水了,還掛了高數(shù)啊...有好的概念沒看懂,以后有時間在好好看吧。如果想搞計算機研究的話,數(shù)學基礎必不可少,別總在抱怨各種數(shù)學課上的東西一輩子都用不著。
發(fā)現(xiàn)作者對人類自然發(fā)展的認識非常深,其從語言,文字,數(shù)學的產(chǎn)生發(fā)展,信息的傳播記錄得出了這個結論:信息的產(chǎn)生傳播接收反饋,和今天最先進的通信在原理上沒有任何差別。就算是科學上最高深的技術,那也是模擬我們生活中的一些基本原理。
我們今天使用的十進制,就是我們扳手指扳了十次,就進一次位。而瑪雅文明他們數(shù)完了手指和腳指才開始進位,所以他們用的是二十進制。實際上*數(shù)字是古印度人發(fā)明的,只是歐洲人不知道這些數(shù)字的真正發(fā)明人是古印度,而就把這功勞該給了“二道販子”*人。
語言的數(shù)學本質
任何一種語言都是一種編碼方式,比如我們把一個要表達的意思,通過語言一句話表達出來,就是利用編碼方式對頭腦中的信息做了一次編碼,編碼的結果就是一串文字,聽者則用這語言的解碼方法獲得說話者要表達的信息。
自然語言處理模型
計算機是很笨的,他們唯一會做的就是計算。自然語言處理在數(shù)學模型上是基于統(tǒng)計的,說一個句子是否合理,就看看他出現(xiàn)的可能性大小如何,可能性就是用概率來衡量,比如一個句子,出現(xiàn)的概率為1/10^10,另一個句子出現(xiàn)的概率為1/10^20,那么我們就可以說第一個句子比第二個句子更加合理。當然這要求有足夠的觀測值,他有大數(shù)定理在背后支持。
最早的中文分詞方法
這句話:“同學們呆在圖書館看書”,如何分詞?應該是這樣:同學們/呆在/圖書館/看書.最先的方法是北航一老師提出的查字典方法,就是把句子從左道右掃描一遍,遇到字典里面出現(xiàn)的詞就標示出來,遇到復合詞如(北京大學)就按照最長的分詞匹配,遇到不認識的字串就分割成單個字,于是中文的分詞就完成了。但是這只能解決78成的分詞問題,但是“像發(fā)展*家”這種短語它是分不出來的。后來大陸用基于統(tǒng)計語言模型方法才解決了。
隱含馬可夫模型(沒這么看懂)
一直被認為是解決打多數(shù)自然語言處理問題最為快速有效的方法,大致意思是:隨機過程中各個狀態(tài)的概率分布,只與他的前一個狀態(tài)有關。比如對于天氣預報,我們只假設今天的氣溫只與昨天有關而與前天沒有關系,這雖然不完美,但是以前不好解決的問題都可以給出近視值了。
一個讓我印象深刻的觀點:
小學生和中學生其實沒有必要花那么多時間去讀書,其覺得最主要的是孩子們的社會經(jīng)驗,生活能力,和那時候樹立起來的志向,這將幫助他們一生。而中學生階段花很多時間比同伴多讀的課程,在大學以后可以用非常短的時間就可以讀完。因為在大學階段,人的理解能力要強很多,比如中學要花500小時才能搞明白的內(nèi)容,大學可能花100小時就搞定了。學習和教育是一個人一輩子的事情,很多中學成績好的人進入大學后有些就表現(xiàn)不太好了,要有不斷學習的動力才行。
余弦定理和新聞分類
我在新浪干過一年多新聞,這篇認真看了一篇,很吃驚原理cos x與新聞分析也有關系啊。google的新聞服務是由計算機自動整理分類的。而傳統(tǒng)的媒體如門戶網(wǎng)站是讓編輯讀懂新聞,找到主題,再分類分級別的,真苦逼啊...計算機自動分類原理是這樣:如一篇新聞有10000個詞,組成一個萬維向量,這個向量就代表這篇新聞,可以通過某種算法表達這個新聞主題的類型,如果兩個向量的方向一致,說明對應的新聞用詞一致,方向可用夾角表示,夾角可用余弦定理表示,所以當夾角的余弦值接近于1時,這兩篇新聞就可以歸為一類了。
沒看懂的東西:
布爾代數(shù):布爾代數(shù)把邏輯學和數(shù)學合二為一,給了我們一個全新的視角看世界...
網(wǎng)絡爬蟲的基本原來是利用了圖論的廣度優(yōu)先搜索和深度優(yōu)先搜索...
搜索引擎的結果排名用了稀疏矩陣的計算...
地圖最基本的計算是利用了有限狀態(tài)機和圖論的最短路徑...
密碼學原理,最大熵模型,拼音輸入法的數(shù)學模型,布隆過濾器,貝葉斯網(wǎng)絡等等...
任何事物都有它的發(fā)展規(guī)律,當我們認識了規(guī)律后,應當在生活工作中遵循規(guī)律,希望大家透過IT規(guī)律的認識,可 以舉一反三的總結學習認識規(guī)律,這樣有助于自己的境界提升一個層次。
任何問題總是能找到相應的準確數(shù)學模型,一個正確的數(shù)學模型在形式上應當是簡單的,一個好的方法在形式上應當也是簡單的。簡單才是美。
《數(shù)學之美》讀書筆記3
《數(shù)學之美》,一個從事多年工作的谷歌研究員眼中的數(shù)學。令我大飽眼福的是,大學里面的數(shù)學知識竟能如此廣泛運用到了計算機行業(yè)中。
在語音識別、翻譯,還有密碼學領域,有著許多基于概率統(tǒng)計的模型和思想。當然,貝葉斯公式是基礎,應用到隱含馬爾科夫鏈模型,神經(jīng)網(wǎng)絡模型。
在搜索中,一些相關性的計算,無不用到了概率的知識。在新聞分類中,用到了一些有關矩陣特征值、相似對角化的知識。當然,在圖像處理方面,矩陣變換可謂是無處不在。另外,在識別方面,有一些通信模型,涉及到了信道、誤碼率、信息熵。
最近剛開學也沒什么事,所以就想隨便找?guī)妆緯匆幌?,但最好別是那種太艱深晦澀的書。8月份一直到現(xiàn)在,吳軍寫的這本12年5月出版的《數(shù)學之美》一直盤踞京東、亞馬遜等各大網(wǎng)上商城科技類圖書的榜首,當然,還有早些時候出版的《浪潮之巔》也排在很靠前的位置。心想市場的力量應該能幫我挑出好書吧,于是就從圖書館借了一本來,一直到今天晚上把它給看完了。
因此想寫一點東西來總結、反思一下,反正剛開完班會也沒什么事干。
寫在前面的建議:如果你不討厭數(shù)學的話,強烈推薦這本書,網(wǎng)上也可以下到電子版,不過閱讀感覺上還是很不一樣的。
廢話就不多說了,《數(shù)學之美》其實是一本科普類的讀物,所面向的是接受過普通高等教育的人,完全不需要在特定領域有很深的造詣就可以看懂,大概懂一點線性代數(shù)、概率統(tǒng)計、組合數(shù)學、信息論、計算機算法、模式識別最好(雖然列舉了這么多,其實有些不懂也沒關系……),所以尤其適合信科的人看。內(nèi)容大部分是和人工智能、計算機相關的,這并非我所學的專業(yè),但作者比較擅長將看似復雜的原理用簡明的語言表達出來,所以可讀性還是很好的。
吳軍是清華大學畢業(yè)的,之前任職于Google,后來到了騰訊,這些文章都是發(fā)表在Google黑板報上的,后來經(jīng)過了重寫,所以網(wǎng)上下載的和書本內(nèi)容有所差異。由于吳軍本人是研究自然語言處理和語音識別的,所以統(tǒng)計語言模型的東西可能會多一點,不過我覺得這絲毫不妨礙全書數(shù)學之美的展現(xiàn)……感覺收獲還是挺多的,知識上的有一些,但更多還是思維方式上的。作者舉了很多例子試圖讓人明白很多看似復雜的高科技背后,基本原理其實是出乎意料簡單的(當然,必須承認第一個想到這些方法的人還是非常了不起的……)。比如高準確率的機器翻譯,看上去好像是計算機能夠理解各國語言,隱藏在背后的卻是很多具有大學理科學歷的人都非常清楚的統(tǒng)計模型和概率模型;再比如拼音輸入法的數(shù)學原理,早期的研究主要集中在縮短*均編碼長度,比如曾經(jīng)流行一時的五筆輸入法,而現(xiàn)今真正實用的輸入法卻是有很多信息冗余、編碼長度比較長的拼音輸入法,作者從信息論和市場的角度做了簡單的闡述;又比如新聞的自動分類,許多非IT領域的人可能會認為計算機可以讀懂新聞并進行分類,而實際上只是特征向量的抽取、多維空間中向量夾角的計算,非常非常簡單,但凡學過一點線性代數(shù)的人絕對是一看就懂的……當然,完美的實現(xiàn)還需要考慮很多細節(jié)和現(xiàn)實的情況,但這并不是這本書所關注的地方,數(shù)學之美在于其簡潔而不是繁瑣。
除了對于具體信息技術的剖析之外,作者還花了很大篇幅來講一些杰出人士的成長過程,特別是把這些人的成長經(jīng)歷和*學生的成長經(jīng)歷作對比。雖然作者并沒有明說,但字里行間多少流露出對于*高等教育以及很多*企業(yè)的批評,一是教育的功利性,缺乏寬松的獨立思考的環(huán)境,即使學了一堆理論也難有用武之地,自然也就缺乏創(chuàng)新性的成果;二是*企業(yè)的短視,大部分都不舍得在新框架開發(fā)上投資,而是坐享學術界和國外企業(yè)的研究成果。
總結一下呢,《數(shù)學之美》事實上不能帶給你編程能力的提升,也沒法讓人的數(shù)學水*有顯著的提升,但它在很大程度上讓你跳出教科書式的繁瑣細節(jié)的束縛,能夠從更宏觀的角度來思考信息世界背后的數(shù)學引擎的運行原理,讓人明白看似很高級、復雜的東西背后其實并不如我們所想象的那樣復雜,而我們所學的“枯燥”的數(shù)學真的可以“四兩撥千斤”,改變億萬人的生活。
《數(shù)學之美》讀書筆記4
《數(shù)學之美》是一本領域相關的數(shù)學概念書,生動形象地講解了關于數(shù)據(jù)挖掘、文本檢索等方面的基礎知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關鍵是要從中學到道----解決問題的方法,而不僅僅是術。書中也啟發(fā)式的引導讀者形成自己解決問題的道。
下面記錄一下自己讀這本書的一些感想:
第一章《文字和語言vs數(shù)字和信息》:文字和語言中天然蘊藏著一些數(shù)學思想,數(shù)學可能不僅僅的是一門非常理科的知識,也是一種藝術。另外,遇到一個復雜的問題時,可能生活中的一些常識,一些簡單的思想會給你帶來解決問題的靈感。
第二章《自然語言處理----從規(guī)則到統(tǒng)計》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風順的,這是自然界的普遍真理吧!
第三章《統(tǒng)計語言模型》:自然語言的處理找到了一種合適的方法---基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學方法給它一個很小的概率。以前學概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學的魅力就在于將復雜的問題簡單化。
第四章《談談中文分詞》:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。
第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面某幾個時刻的狀態(tài)有關。基于大量數(shù)據(jù)訓練出相應的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會涉及到一些經(jīng)典的算法(維特比算法等)。關于這個模型,沒有實際實現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。
第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學術成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關鍵是他的思想和他的道。賈里克尼教授治學嚴謹、用心對待自己的學生,對于學生的教導,教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學習,最后在辦公桌前過世了。讀了這章我總結出的一句話是“思想決定一個人的高度”。
在這章中對于少年時的教育,以下幾點值得借鑒:
1、少年時期其實沒有必要花那么多時間讀書,他們的社會經(jīng)驗、生活能力以及在那時樹立起的志向將幫助他們一生。
2、中學時花大量時間學會的內(nèi)容,在大學用非常短的時間就可以讀完,因為在大學階段,人的理解力要強很多。
3、學習(和教育)是一個人一輩子的過程。
4、書本的內(nèi)容可以早學,也可以晚學,但是錯過了成長階段卻是無法補回來的。
第八章《簡單之美----布爾代數(shù)和搜索引擎的索引》:布爾是19世紀英國的一位中學教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中出現(xiàn)而設置為0和1,為了適應索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10-20個不好的搜索結果,積累一段時間才有感覺。有時候,學習、處理問題,可以從不好的方面入手,效果可能更好。
第九章《圖論和網(wǎng)絡爬蟲》:圖的遍歷分為“廣度優(yōu)先搜索(Breadth-FirstSearch,簡稱BFS)”和“深度優(yōu)先搜索(Depth-FirstSearch,簡稱DFS)。互聯(lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務器的任務,這就是網(wǎng)絡設計和程序設計的藝術了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復下載。另外,在圖論出現(xiàn)的.很長一段時間里,實際需求的圖只有幾千個節(jié)點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學方法就是這樣,看上去沒有什么用途,等到具體的應用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復雜的東西,需要很好的設計。
第十章《PageRank----Google的民主表決式網(wǎng)頁排名技術》:搜索返回了成千上萬條結果,如何為搜索結果排名?這取決與兩組信息:關于網(wǎng)頁的質量信息以及這個查詢和每個網(wǎng)頁的相關性信息。PageRank算法來衡量一個網(wǎng)頁的質量,該算法的思想是如果一個網(wǎng)頁被很多其他網(wǎng)頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關重要的。該算法并不難,可是當時只有佩奇和布林想到了,為什么呢?
第十一章《如何確定網(wǎng)頁和查詢的相關性》:構建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質量以及確定一個網(wǎng)頁和某個查詢的相關性。搜索關鍵詞權重的科學度量TF—IDF,TF衡量一個詞在一個網(wǎng)頁中的權重,即詞頻。IDF衡量一個詞本身的權重,對主題的預測能力。一個查詢和該網(wǎng)頁的相關性公式由詞頻的簡單求和變成了加權求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。看似復雜的搜索引擎,里面的原理竟是這么簡單!
第十二章《地圖和本地搜索的最基本技術——有限狀態(tài)機和動態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機,當用戶輸入的地址不太標準或有錯別字時,希望進行模糊匹配,提出了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機和動態(tài)規(guī)劃問題需要看相關的算法講解,才能深入理解,目前對其并未完全理解。
第十三章《GoogleAK-47的設計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進的目標。辛格要求對于搜索質量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學。
第十四章《余弦定理和新聞的分類》:將新聞根據(jù)詞的TF-IDF值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。
第十五章《矩陣運算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結果,在利用余弦計算得到比較精確地結果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。
第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數(shù)產(chǎn)生器,常用的算法有MD5或者SHA-1等標準。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1.8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。
第十七章《由電視劇《暗算》所想到的——談談密碼學的數(shù)學原理》:RSA加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數(shù)學思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統(tǒng)計獨立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。
第十八章《閃光的不一定是金子——談談搜索引擎反作弊問題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術好,而是到它那里作弊的人少。
第十九章《談談數(shù)學模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。一個正確的數(shù)學模型應該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。
第二十章《不要把雞蛋放在一個籃子里——談談最大熵模型》:對一個隨機事件預測時,當各種情況概率相等時,信息熵達到最大,不確定性最大,預測的風險最小。最大熵模型的訓練非常復雜,需要時查看資料做進一步的理解。
第二十一章《拼音輸入法的數(shù)學原理》:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復,而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的*均最短碼長。全拼不僅編碼*均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實現(xiàn)拼音轉漢字的有效算法,而且可以轉換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關鍵就在于建立更好的語言模型??梢愿鶕?jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學模型。要做出最有效的輸入法,應該自覺使用信息論做指導。
第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務;另一個是將這個方法發(fā)揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學生關鍵的指導;寬松的管理方式,培養(yǎng)各有特點的年輕學者;是一個有著遠見卓識的管理者。他的學生為人做事風格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·*。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質和追求。
第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學原理在于完全隨機的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進行簡單的算術運算,因此速度非????!毒幊讨榄^》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。
第二十四章《馬爾科夫鏈的擴展——貝葉斯網(wǎng)絡》:貝葉斯網(wǎng)絡是馬爾科夫鏈的擴展,由簡單的線性鏈式關系擴展為網(wǎng)絡的關系,但貝葉斯網(wǎng)絡仍然假設每一個狀態(tài)只與它直接相連的狀態(tài)相關。確定貝葉斯網(wǎng)絡的拓撲結構和各個狀態(tài)之間相關的概率也需要訓練。在詞分類中,可以建立文章、主題和關鍵詞的貝葉斯網(wǎng)絡,用來得到詞的分類。貝葉斯網(wǎng)絡的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網(wǎng)絡導出的模型是非常復雜的。
第二十五章《條件隨機場和句法分析》:句法分析是分析出一個句子的句子結構,對于不規(guī)則的句子,對其進行深入的分析是很復雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數(shù)學模型。條件隨機場與貝葉斯網(wǎng)絡很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網(wǎng)絡是有向圖。條件隨機場的訓練很復雜,簡化之后可以參考最大熵訓練的方法。對于條件隨機場的詳細參數(shù)及原理還不理解。
第二十六章《維特比和他的維特比算法》:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現(xiàn)實時的輸出,這看似簡單,但在當時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣出去,并應用到了實際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDMA技術霸占了3G的市場,可見遠見的洞察力是多么的重要。
第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實就是K均值聚類問題,設置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標函數(shù)如果是個凸函數(shù),則一定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應該考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標的過程。
第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據(jù)廣告的預估點擊率來客觀的推送廣告收入多。點擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數(shù)模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。
第二十九章《各個擊破和Google云計算的基礎》:分而治之,各個擊破是一個很好的方法,Google開發(fā)的MapReduce算法就應用了該方法。將一個大任務分成幾個小任務,這個過程叫Map,將小任務的結果合并成最終結果,這個過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復雜的事情了。可見大量用到的、真正有用的方法往往簡單而又樸實。
附錄《計算復雜度》:計算機中復雜度是以O()來表示的,如果一個算法的計算量不超過N的多項式函數(shù),則稱算法為多項式函數(shù)復雜度的(P問題),是可以計算的。若比N的多項式函數(shù)還高,則是非多項式問題,實際上是不可計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研究的焦點,因為現(xiàn)實中好多問題都是NP問題。另外還有NP-Complete問題(NP問題可以在多項式時間內(nèi)規(guī)約到該問題)和NP-Hard問題,對于這兩種問題,需要簡化找到近似解。
整體上,《數(shù)學之美》這本書讓我了解了很多文本處理,數(shù)據(jù)挖掘相關的知識,學到了很多。其中,簡單美以及一些科學家的大師風范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!
《數(shù)學之美》讀書筆記5
本書介紹了Google產(chǎn)品中涉及的自然語言處理、統(tǒng)計語言模型、中文分詞、信息度量、拼音輸入法、搜索引擎、網(wǎng)頁排名、密碼學等內(nèi)容背后的數(shù)學原理。讓我們看到了布爾代數(shù)、離散數(shù)學、統(tǒng)計學、矩陣計算、馬爾科夫鏈等似曾相識的內(nèi)容在實際生活中的應用。相比于其他數(shù)學題材書籍,吳軍老師把抽象、深奧的數(shù)學方法解釋得通俗易懂,書中同時引用了諸多的歷史典故和人物介紹,給人以很多啟發(fā),也讓人由衷感嘆數(shù)學的簡潔和強大。
雖是數(shù)據(jù)專業(yè)畢業(yè),但是才疏學淺,無力對數(shù)學的美進行闡述。僅就書中兩個比較喜歡的地方發(fā)表一點不成熟的見解,與諸位共勉。
其一,在講Google的搜素引擎反作弊時談到做事情的兩種境界“道”和“術”,術就是具體的做事方法,而道則是隱藏在問題背后的動機和本質。在術這個層面解決問題要付出更多的努力,有點類似于我們常說的“頭疼醫(yī)頭,腳疼醫(yī)腳”,暫時不疼了,過幾天復發(fā)了,再去醫(yī)治,如此往復,無法從根本上解決;而只有找到了致病原因,才能做到藥到病除,根本治愈。本人之前參與過行內(nèi)月終自動核對的研發(fā),月終核對初期數(shù)據(jù)的不一致性只能靠數(shù)百業(yè)務人員人工核對數(shù)據(jù)差異,然后修改數(shù)據(jù),每月1日都要加班加點,工作量很大,這是從術上解決問題。后來找到了產(chǎn)生差異的原因是會計核算時的利息調(diào)整造成的,把這些數(shù)據(jù)接過來進行相應沖減后差異就消失了,業(yè)務人員也不用來加班了,這才是從道上解決問題。
其二,是在做中文網(wǎng)頁排名時提到的從業(yè)界成功的秘訣之一:“先幫助用戶解決80%的問題,再慢慢解決剩下的20%的問題。許多時候做事失敗,不是因為人不夠優(yōu)秀,而是做事的方法不對。一開始追求大而全的解決方案,之后長時間不能完成,最后不了了之”。我們在做項目時也是一樣,業(yè)務有時要的功能非常急,可能有些功能也實現(xiàn)不了(比如系統(tǒng)響應時間長、查詢明細不能支持省行等)。這時我們就要將焦點關注在那些可以實現(xiàn)的80%的功能上,哪怕剛剛上線的系統(tǒng)界面丑點,操作復雜點,反應速度慢點,但是至少業(yè)務有可用的系統(tǒng),剩下時間再去優(yōu)化那剩下的20%。這樣可以幫助我行搶占先機,在與同行業(yè)的競爭中取得主動。如果等待我們把所有的細節(jié)都搞清楚再動手開發(fā),力求完美,那么很可能系統(tǒng)能夠上線的時候業(yè)務已經(jīng)不需要了。
數(shù)學之美,也就是簡單之美。希望大家能夠喜歡數(shù)學,喜歡數(shù)學之美。
《數(shù)學之美》讀書筆記6
上個月去北京開會,順道拜訪了人民郵電出版社,合作多年的編輯陳冀康贈我一本《數(shù)學之美》,說一定是我喜歡看的類型。以前也在網(wǎng)上零散看過Google黑板報上吳軍先生的文章,對他的前一本書《浪潮之顛》也有耳聞,但沒有讀過。這次有機會集中閱讀他的文章,確實是一段美妙的體驗。
讀完這本書有一點強烈的感受:工具一定要先進。數(shù)學是強大的工具,計算機也是。這兩種工具結合在一起,造就了強大的google、百度、亞馬遜、阿里、京東、騰迅等公司。他們不是百年老店,但他們掌握了先進的工具。
掌握了先進的工具,必將獲得競爭優(yōu)勢。如果你知道哪里有一群軟件工程師,維護著更大的一群計算機,那么不要猶豫,想辦法使用他們提供的服務,因為這會給你帶來優(yōu)勢。所以我們使用Google的搜索和郵件,在亞馬遜、京東和淘寶上購物,用QQ和微博聯(lián)系朋友,使用銀行卡和網(wǎng)上銀行,利用交易終端在全球市場上進行各種交易……
人類歷史就是一部工具的進化史。石器、青銅、鐵器、火藥、蒸汽機、內(nèi)燃機、電報、電話、電視、計算機、衛(wèi)星、互聯(lián)網(wǎng),工具的進步引領著文明的進步。新的工具不斷淘汰老的工具,就像互聯(lián)網(wǎng)視頻點播正在淘汰電視、微博正在淘汰報紙、電子書正在淘汰紙質書那樣。
但有一些古老的工具,今天仍有人在學習和使用,甚至在上面花費許多時間。毛筆就是這樣一個例子。今天學習掌握毛筆這種“落后的”工具,還有什么意義?其實我們在使用一些“落后的”工具時,主要是在學習工具背后的思想。書法和繪畫中蘊含的藝術審美的一般原則,經(jīng)得起具體工具變遷的考驗。甲骨文、金文、石鼓文所包含的對空間構圖的理解,仍然值得現(xiàn)代人學習。思想工具是比實物工具更強大的工具。
工具組合使用,形成更強大的新工具?!稊?shù)學之美》中提到的馬爾可夫鏈雖然是很強大的工具,但我在數(shù)學課上沒有聽老師提到過。這本書中給我印象最深的例子是余弦定理和新聞分類。余弦定理是中學數(shù)學,再加上一些不算很難的多維向量的知識,竟然解決了計算機新聞分類這樣的難題!
每一種工具的背后,是人們對世界的一種理解。蒸汽機和內(nèi)燃機背后,是力學的世界。電報、電話、電視、計算機和互聯(lián)網(wǎng)背后,是信息的世界。數(shù)學是抽象的工具,是其他工具背后的工具。每一門學科要成為科學,都少不了數(shù)學。也許有一天人們會習慣,用數(shù)學工具來分析藝術。數(shù)學是一種語言,它源于具體的世界,又高于具體的世界。如果說語言是對世界的認識和描述,如果說數(shù)學是一種語言,那么它一定是最接近神的語言??此坪敛幌嚓P,卻又能描述萬事萬物。
學習數(shù)學有什么用?物理學家費曼當年在大一時提出這個問題,他的師兄建議他轉到物理系。今天,這個問題已不成為問題。具有扎實數(shù)學功底的人才正進入各行各業(yè),例如金融業(yè)。我認識一個出版社的老總,他招應屆畢業(yè)生有一個條件:數(shù)學要好。
工具雖好,關鍵還要會用。最終要回到掌握先進工具的人。軟件算法工程師加上計算機集群,這是目前一流企業(yè)必需的裝備。正如馬克.安德森所說的,各行各業(yè)的一流公司,都是軟件公司。優(yōu)秀的軟件算法工程師,是人才爭奪的焦點。這樣,我們就容易理解Google招工程師的要求。
對信息加工處理和傳遞的能力不斷增強,是知識經(jīng)濟的特點?!稊?shù)學之美》展示了Google如何運用數(shù)學和計算機網(wǎng)絡,帶領我們進入云計算和大數(shù)據(jù)時代。
知識經(jīng)濟時代的工作,就是在各自的領域中進行科學研究。科學研究要大膽假設,小心求證??茖W研究要量化。科學研究要有對比實驗。科學研究要有數(shù)學模型??茖W研究要有田野調(diào)查??茖W研究要有文獻查證??茖W研究要有同行評議。《數(shù)學之美》向我們介紹了自然語言分析領域的科研方法和過程。
任何一個領域,深入進去都有無數(shù)的細節(jié)。有興趣的人不但沒被這些細節(jié)嚇倒,反而會興致勃勃地研究,從而達到令人仰慕的高度。吳軍先生向我們展示了數(shù)學和算法中的這些細節(jié),也展示了他所達到的高度。值得我學習。
感謝吳軍先生分享他的知識和深刻見解,也感謝人民郵電出版社出了這樣一本好書。
《數(shù)學之美》讀書筆記7
《數(shù)學之美》,一個從事多年工作的谷歌研究員眼中的數(shù)學。令我大飽眼福的是,大學里面的數(shù)學知識竟能如此廣泛運用到了計算機行業(yè)中。
在語音識別、翻譯,還有密碼學領域,有著許多基于概率統(tǒng)計的模型和思想。當然,貝葉斯公式是基礎,應用到隱含馬爾科夫鏈模型,神經(jīng)網(wǎng)絡模型。
在搜索中,一些相關性的計算,無不用到了概率的知識。在新聞分類中,用到了一些有關矩陣特征值、相似對角化的知識。當然,在圖像處理方面,矩陣變換可謂是無處不在。另外,在識別方面,有一些通信模型,涉及到了信道、誤碼率、信息熵。
最近剛開學也沒什么事,所以就想隨便找?guī)妆緯匆幌拢詈脛e是那種太艱深晦澀的書。8月份一直到現(xiàn)在,吳軍寫的這本12年5月出版的《數(shù)學之美》一直盤踞京東、亞馬遜等各大網(wǎng)上商城科技類圖書的榜首,當然,還有早些時候出版的《浪潮之巔》也排在很靠前的位置。心想市場的力量應該能幫我挑出好書吧,于是就從圖書館借了一本來,一直到今天晚上把它給看完了。
因此想寫一點東西來總結、反思一下,反正剛開完班會也沒什么事干。
寫在前面的建議:如果你不討厭數(shù)學的話,強烈推薦這本書,網(wǎng)上也可以下到電子版,不過閱讀感覺上還是很不一樣的。
廢話就不多說了,《數(shù)學之美》其實是一本科普類的讀物,所面向的是接受過普通高等教育的人,完全不需要在特定領域有很深的造詣就可以看懂,大概懂一點線性代數(shù)、概率統(tǒng)計、組合數(shù)學、信息論、計算機算法、模式識別最好,所以尤其適合信科的人看。內(nèi)容大部分是和人工智能、計算機相關的,這并非我所學的專業(yè),但作者比較擅長將看似復雜的原理用簡明的語言表達出來,所以可讀性還是很好的。
吳軍是清華大學畢業(yè)的,之前任職于Google,后來到了騰訊,這些文章都是發(fā)表在Google黑板報上的,后來經(jīng)過了重寫,所以網(wǎng)上下載的和書本內(nèi)容有所差異。由于吳軍本人是研究自然語言處理和語音識別的,所以統(tǒng)計語言模型的東西可能會多一點,不過我覺得這絲毫不妨礙全書數(shù)學之美的展現(xiàn)……感覺收獲還是挺多的,知識上的有一些,但更多還是思維方式上的。作者舉了很多例子試圖讓人明白很多看似復雜的高科技背后,基本原理其實是出乎意料簡單的。比如高準確率的機器翻譯,看上去好像是計算機能夠理解各國語言,隱藏在背后的卻是很多具有大學理科學歷的人都非常清楚的統(tǒng)計模型和概率模型;再比如拼音輸入法的數(shù)學原理,早期的研究主要集中在縮短*均編碼長度,比如曾經(jīng)流行一時的五筆輸入法,而現(xiàn)今真正實用的輸入法卻是有很多信息冗余、編碼長度比較長的拼音輸入法,作者從信息論和市場的角度做了簡單的闡述;又比如新聞的自動分類,許多非IT領域的人可能會認為計算機可以讀懂新聞并進行分類,而實際上只是特征向量的抽取、多維空間中向量夾角的計算,非常非常簡單,但凡學過一點線性代數(shù)的人絕對是一看就懂的……當然,完美的實現(xiàn)還需要考慮很多細節(jié)和現(xiàn)實的情況,但這并不是這本書所關注的地方,數(shù)學之美在于其簡潔而不是繁瑣。
除了對于具體信息技術的剖析之外,作者還花了很大篇幅來講一些杰出人士的成長過程,特別是把這些人的成長經(jīng)歷和*學生的成長經(jīng)歷作對比。雖然作者并沒有明說,但字里行間多少流露出對于*高等教育以及很多*企業(yè)的批評,一是教育的功利性,缺乏寬松的獨立思考的環(huán)境,即使學了一堆理論也難有用武之地,自然也就缺乏創(chuàng)新性的成果;二是*企業(yè)的短視,大部分都不舍得在新框架開發(fā)上投資,而是坐享學術界和國外企業(yè)的研究成果。
總結一下呢,《數(shù)學之美》事實上不能帶給你編程能力的提升,也沒法讓人的數(shù)學水*有顯著的提升,但它在很大程度上讓你跳出教科書式的繁瑣細節(jié)的束縛,能夠從更宏觀的角度來思考信息世界背后的數(shù)學引擎的運行原理,讓人明白看似很高級、復雜的東西背后其實并不如我們所想象的那樣復雜,而我們所學的“枯燥”的數(shù)學真的可以“四兩撥千斤”,改變億萬人的生活。
《數(shù)學之美》讀書筆記8
吳軍2012年的作品,源于其在谷歌黑板報的系列文章,講述數(shù)學方法在信息技術中的應用,說明了為什么科學研究中方法論如此的重要,以及數(shù)學如何簡單優(yōu)雅地解決問題,直達本質。對比他的其他作品比如《浪潮之巔》、《硅谷之謎》,本書比較偏技術,屬于目前大熱的數(shù)據(jù)科學(Data Science)范疇,在云計算、大數(shù)據(jù)和人工智能等成為常態(tài)和趨勢的今天,適合所有對IT技術及相關管理人員閱讀。對我而言,最大的收獲包括:
規(guī)則vs.算法:自然語言處理,在早期幾十年基于文法規(guī)則都無法達到可應用的效果,終于在轉變?yōu)榛诮y(tǒng)計方法且積累了足夠數(shù)據(jù)后,形成了突破,達到了今日可大規(guī)模商用的效果。再次說明了數(shù)據(jù)及算法在今日的重要性。
一些常見應用涉及的優(yōu)化算法:搜索相關(分詞、網(wǎng)絡爬蟲、索引、結果排名、廣告及反作弊)、文本處理(新聞分類、廣告相關性、輸入法)、地圖路線規(guī)劃、信息指紋、密碼學等。這些算法不止適用于這些應用場景,還可以在其他許多地方借鑒,比如用戶評論分析也需要用分詞和語義分析,許多價值優(yōu)化算法都需要用到期望值最大化和邏輯回歸等。
優(yōu)雅的理論模型:在初始階段,出于時間和成本考慮,在技術實現(xiàn)上可能會使用一些拼湊的方法,甚至山寨,但是這種方法并不可持續(xù),很難進行系統(tǒng)化的優(yōu)化,開發(fā)維護成本都很高,最終會遇到災難性問題。做事情需要有境界,最求簡單而優(yōu)雅的理論和工程實現(xiàn),這在長期是非常有好處的。
吳軍使用淺顯易懂的語言,把解決問題的思路和復雜的數(shù)學模型講得很清楚,雖然理解延伸閱讀里的具體數(shù)學公式還是有些挑戰(zhàn)。其實重要的是思想和方法,具體的實現(xiàn)可以在用到時再進一步的了解。如何用簡單的語言把復雜的技術講清楚,也是我工作的需要,要不斷學習磨練。書里提到了啟發(fā)吳軍這方面能力的兩本書,即《從0到無窮大》和《時間簡史》,會有要去看下。
《數(shù)學之美》讀書筆記9
我在想,為什么我們要學習數(shù)學?也許這個問題成年人有一萬個答案,可是當我們第一次走進教室,學習數(shù)學的時候,大概率還是個孩子,你怎么跟一個孩子解釋為什么要學習數(shù)學呢?我把這個問題拋給了一個朋友,他說:“為了提高思維邏輯能力,這是我初中老師在第一節(jié)數(shù)學課上告訴我們的”?;蛘咭晃?歲的小朋友又會問:“什么是邏輯能力呢?”
也許從出生第一天,我們就一直在被動的接收一些東西,父母的勸導,老師的傳授,可5歲的孩子還是會把玩具散落一地,6歲的孩子仍然會因為父母不給買玩具而嗷嗷大哭,無論你怎么勸導一個人,怎么勸誡一個人,他可能仍然會犯你認為會出現(xiàn)的錯誤。我記得有位教育專家這么說:“你告訴寶寶他把玩具弄壞了,就等于丟了10個棒棒糖”,從此以后這個寶寶可能會更加珍惜玩具。這個方法很簡單,但是貌似最有效。數(shù)學是什么?數(shù)學不就是把復雜的東西簡單化么?
現(xiàn)在我們再回答前面的問題:為什么我要學習數(shù)學?我們可以這么跟5歲的小朋友說:“媽媽給你10元錢,讓你買醬油,醬油7元、棒棒糖1元一個,剩下的錢你可以買幾個棒棒糖?”或許想吃棒棒糖的就會苦思冥想一番,或許未來媽媽真的給他10元錢去買醬油,結果回來就變成了一瓶醬油和3個棒棒糖。或者再過一段時間,這位小朋友會選擇6元的醬油,因為可以獲得4個棒棒糖了。他這么計算著:7+3和6+4都可以等于10,那么如果要必須買醬油的情況下,1+9也可以等于10。我們都知道也有1元的袋裝醬油,于是9個棒棒糖到手了。任何知識的魅力都在于自我的發(fā)現(xiàn),只有你對它產(chǎn)生了無限的興趣,你就會不斷的發(fā)現(xiàn)它的美,《數(shù)學之美》也可以變成《物理之美》。
有些人會說,上面的例子是利益驅動型,不是興趣驅動型,對于一個孩子來說,你能指望他向*那樣:“我需要的不是物質世界,我需要的是精神世界?”5歲寶寶最喜歡做得事情就是在吃和玩上面,請問,成年人不也是如此么?這就是天性。只不過成年人的自控能力足夠大罷了。
我們回到書本上,這本書是否合適自己?如果沒有專業(yè)的數(shù)學知識,很難讀懂。但是它又有著無限的魅力,讓你不自覺的讀下去,為什么?因為“數(shù)學之美”,雖然大多數(shù)人看不懂里面的公式,但是能夠明白數(shù)學能解決的問題:概率統(tǒng)計學能夠解決自然語言處理、布爾代數(shù)能解決搜索引擎的問題、有限狀態(tài)機和動態(tài)規(guī)劃能解決地圖問題、向量+特征向量+余弦定理能解決自動新聞分類問題、最大熵模型解決金融問題,看著看著我就莫名的產(chǎn)生了一種想要學習算法的沖動,這不就是本書的意義所在么?
《數(shù)學之美》讀書筆記10
很多人都覺得,數(shù)學是一個太高深、太理論的學科,不接近生活,對我們大多數(shù)人來說*時也根本用不到,所以沒必要去理解數(shù)學。但事情真的是這樣嗎?
其實不然,數(shù)學一直滲透在我們生活的各個方面,尤其是在今天這個信息時代,很多簡單樸素的數(shù)學思想,能發(fā)揮一般人很難想象的巨大作用。比如,計算機處理自然語言,用到的最重要工具是統(tǒng)計學的思想;計算機對新聞內(nèi)容的分類,依靠的是數(shù)學里的余弦定理;而電子電路的基本邏輯,則來源于僅有0和1兩個數(shù)字的布爾代數(shù)。
在《數(shù)學之美》里,吳軍用自己在工作中使用數(shù)學的親身經(jīng)歷,為我們展現(xiàn)了數(shù)學的重要性,以及他對數(shù)學之美的理解。吳軍是“得到”App專欄《吳軍的谷歌方法論》的主理人。曾先后供職于谷歌和騰訊,是著名的自然語言處理專家和搜索專家。同時,他還是位暢銷書作家,除了這本《數(shù)學之美》以外,還寫過《文明之光》《智能時代》《浪潮之巔》等多本暢銷書。
《數(shù)學之美》讀書筆記感觸3篇(擴展2)
——《數(shù)學之美》讀書筆記10篇
《數(shù)學之美》讀書筆記1
《數(shù)學之美》是一本領域相關的數(shù)學概念書,生動形象地講解了關于數(shù)據(jù)挖掘、文本檢索等方面的基礎知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關鍵是要從中學到道————解決問題的方法,而不僅僅是術。書中也啟發(fā)式的引導讀者形成自己解決問題的道。
下面記錄一下自己讀這本書的一些感想:
第一章《文字和語言vs數(shù)字和信息》:文字和語言中天然蘊藏著一些數(shù)學思想,數(shù)學可能不僅僅的是一門非常理科的知識,也是一種藝術。另外,遇到一個復雜的問題時,可能生活中的一些常識,一些簡單的思想會?給你帶來解決問題的靈感。
第二章《自然語言處理————從規(guī)則到統(tǒng)計》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風順的,這是自然界的普遍真理吧!
第三章《統(tǒng)計語言模型》:自然語言的處理找到了一種合適的方法———基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學方法給它一個很小的概率。以前學概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學的魅力就在于將復雜的問題簡單化。
第四章《談談中文分詞》:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。
第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面某幾個時刻的狀態(tài)有關。基于大量數(shù)據(jù)訓練出相應的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會涉及到一些經(jīng)典的算法(維特比算法等)。關于這個模型,沒有實際實現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。
第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學術成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關鍵是他的思想和他的道。賈里克尼教授治學嚴謹、用心對待自己的學生,對于學生的教導,教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學習,最后在辦公桌前過世了。讀了這章我總結出的一句話是“思想決定一個人的高度”。在這章中對于少年時的教育,以下幾點值得借鑒:1、少年時期其實沒有必要花那么多時間讀書,他們的社會經(jīng)驗、生活能力以及在那時樹立起的志向將幫助他們一生。2、中學時花大量時間學會的內(nèi)容,在大學用非常短的時間就可以讀完,因為在大學階段,人的理解力要強很多。3、學習(和教育)是一個人一輩子的過程。4、書本的內(nèi)容可以早學,也可以晚學,但是錯過了成長階段卻是無法補回來的。
第八章《簡單之美————布爾代數(shù)和搜索引擎的索引》:布爾是19世紀英國的一位中學教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中出現(xiàn)而設置為0和1,為了適應索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10—20個不好的搜索結果,積累一段時間才有感覺。有時候,學習、處理問題,可以從不好的方面入手,效果可能更好。
第九章《圖論和網(wǎng)絡爬蟲》:圖的遍歷分為“廣度優(yōu)先搜索(Breadth—First Search,簡稱BFS)”和“深度優(yōu)先搜索(Depth—First Search,簡稱DFS)。互聯(lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務器的任務,這就是網(wǎng)絡設計和程序設計的藝術了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復下載。另外,在圖論出現(xiàn)的很長一段時間里,實際需求的圖只有幾千個節(jié)點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學方法就是這樣,看上去沒有什么用途,等到具體的應用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復雜的東西,需要很好的設計。
第十章《PageRank————Google的民主表決式網(wǎng)頁排名技術》:搜索返回了成千上萬條結果,如何為搜索結果排名?這取決與兩組信息:關于網(wǎng)頁的質量信息以及這個查詢和每個網(wǎng)頁的相關性信息。PageRank算法來衡量一個網(wǎng)頁的質量,該算法的思想是如果一個網(wǎng)頁被很多其他網(wǎng)頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關重要的。該算法并不難,可是當時只有佩奇和布林想到了,為什么呢?
第十一章《如何確定網(wǎng)頁和查詢的相關性》:構建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質量以及確定一個網(wǎng)頁和某個查詢的相關性。搜索關鍵詞權重的科學度量TF—IDF,TF衡量一個詞在一個網(wǎng)頁中的權重,即詞頻。IDF衡量一個詞本身的權重,對主題的預測能力。一個查詢和該網(wǎng)頁的相關性公式由詞頻的簡單求和變成了加權求和,即TF1*IDF1 + TF2*IDF2 + 。。。 + TFN*IDFN??此茝碗s的搜索引擎,里面的原理竟是這么簡單!
第十二章《地圖和本地搜索的最基本技術——有限狀態(tài)機和動態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機,當用戶輸入的地址不太標準或有錯別字時,希望進行模糊匹配,提出了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機和動態(tài)規(guī)劃問題需要看相關的算法講解,才能深入理解,目前對其并未完全理解。
第十三章《Google AK—47的設計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進的目標。辛格要求對于搜索質量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學。
第十四章《余弦定理和新聞的分類》:將新聞根據(jù)詞的TF—IDF值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。
第十五章《矩陣運算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結果,在利用余弦計算得到比較精確地結果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。
第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數(shù)產(chǎn)生器,常用的算法有MD5或者SHA—1等標準。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1。8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。
第十七章《由電視劇《暗算》所想到的——談談密碼學的數(shù)學原理》:RSA加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數(shù)學思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統(tǒng)計獨立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。
第十八章《閃光的不一定是金子——談談搜索引擎反作弊問題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術好,而是到它那里作弊的人少。
第十九章《談談數(shù)學模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。一個正確的數(shù)學模型應該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。
第二十章《不要把雞蛋放在一個籃子里——談談最大熵模型》:對一個隨機事件預測時,當各種情況概率相等時,信息熵達到最大,不確定性最大,預測的風險最小。最大熵模型的訓練非常復雜,需要時查看資料做進一步的理解。
第二十一章《拼音輸入法的數(shù)學原理》:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復,而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的*均最短碼長。全拼不僅編碼*均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實現(xiàn)拼音轉漢字的有效算法,而且可以轉換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關鍵就在于建立更好的語言模型??梢愿鶕?jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學模型。要做出最有效的輸入法,應該自覺使用信息論做指導。
第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務;另一個是將這個方法發(fā)揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學生關鍵的指導;寬松的管理方式,培養(yǎng)各有特點的年輕學者;是一個有著遠見卓識的管理者。他的學生為人做事風格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·*。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質和追求。
第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學原理在于完全隨機的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進行簡單的算術運算,因此速度非??臁!毒幊讨榄^》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。
第二十四章《馬爾科夫鏈的擴展——貝葉斯網(wǎng)絡》:貝葉斯網(wǎng)絡是馬爾科夫鏈的擴展,由簡單的線性鏈式關系擴展為網(wǎng)絡的關系,但貝葉斯網(wǎng)絡仍然假設每一個狀態(tài)只與它直接相連的狀態(tài)相關。確定貝葉斯網(wǎng)絡的拓撲結構和各個狀態(tài)之間相關的概率也需要訓練。在詞分類中,可以建立文章、主題和關鍵詞的貝葉斯網(wǎng)絡,用來得到詞的分類。貝葉斯網(wǎng)絡的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網(wǎng)絡導出的模型是非常復雜的。
第二十五章《條件隨機場和句法分析》:句法分析是分析出一個句子的句子結構,對于不規(guī)則的句子,對其進行深入的分析是很復雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數(shù)學模型。條件隨機場與貝葉斯網(wǎng)絡很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網(wǎng)絡是有向圖。條件隨機場的訓練很復雜,簡化之后可以參考最大熵訓練的方法。對于條件隨機場的詳細參數(shù)及原理還不理解。
第二十六章《維特比和他的維特比算法》:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現(xiàn)實時的輸出,這看似簡單,但在當時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣出去,并應用到了實際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDMA技術霸占了3G的市場,可見遠見的洞察力是多么的重要。
第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實就是K均值聚類問題,設置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標函數(shù)如果是個凸函數(shù),則一定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應該考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標的過程。
第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據(jù)廣告的預估點擊率來客觀的推送廣告收入多。點擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數(shù)模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。
第二十九章《各個擊破和Google云計算的基礎》:分而治之,各個擊破是一個很好的方法,Google開發(fā)的MapReduce算法就應用了該方法。將一個大任務分成幾個小任務,這個過程叫Map,將小任務的結果合并成最終結果,這個過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復雜的事情了。可見大量用到的、真正有用的方法往往簡單而又樸實。
附錄《計算復雜度》:計算機中復雜度是以O()來表示的,如果一個算法的計算量不超過N的多項式函數(shù),則稱算法為多項式函數(shù)復雜度的(P問題),是可以計算的。若比N的多項式函數(shù)還高,則是非多項式問題,實際上是不可計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研究的焦點,因為現(xiàn)實中好多問題都是NP問題。另外還有NP—Complete問題(NP問題可以在多項式時間內(nèi)規(guī)約到該問題)和NP—Hard問題,對于這兩種問題,需要簡化找到近似解。
整體上,《數(shù)學之美》這本書讓我了解了很多文本處理,數(shù)據(jù)挖掘相關的知識,學到了很多。其中,簡單美以及一些科學家的大師風范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!
《數(shù)學之美》讀書筆記2
很多人都覺得,數(shù)學是一個太高深、太理論的學科,不接近生活,對我們大多數(shù)人來說*時也根本用不到,所以沒必要去理解數(shù)學。但事情真的是這樣嗎?
其實不然,數(shù)學一直滲透在我們生活的各個方面,尤其是在今天這個信息時代,很多簡單樸素的數(shù)學思想,能發(fā)揮一般人很難想象的巨大作用。比如,計算機處理自然語言,用到的最重要工具是統(tǒng)計學的思想;計算機對新聞內(nèi)容的分類,依靠的是數(shù)學里的余弦定理;而電子電路的基本邏輯,則來源于僅有0和1兩個數(shù)字的布爾代數(shù)。
在《數(shù)學之美》里,吳軍用自己在工作中使用數(shù)學的親身經(jīng)歷,為我們展現(xiàn)了數(shù)學的重要性,以及他對數(shù)學之美的理解。吳軍是“得到”App專欄《吳軍的谷歌方法論》的主理人。曾先后供職于谷歌和騰訊,是著名的.自然語言處理專家和搜索專家。同時,他還是位暢銷書作家,除了這本《數(shù)學之美》以外,還寫過《文明之光》《智能時代》《浪潮之巔》等多本暢銷書。
《數(shù)學之美》讀書筆記3
《數(shù)學之美》是一本領域相關的數(shù)學概念書,生動形象地講解了關于數(shù)據(jù)挖掘、文本檢索等方面的基礎知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關鍵是要從中學到道----解決問題的方法,而不僅僅是術。書中也啟發(fā)式的引導讀者形成自己解決問題的道。
下面記錄一下自己讀這本書的一些感想:
第一章《文字和語言vs數(shù)字和信息》:文字和語言中天然蘊藏著一些數(shù)學思想,數(shù)學可能不僅僅的是一門非常理科的知識,也是一種藝術。另外,遇到一個復雜的問題時,可能生活中的一些常識,一些簡單的思想會給你帶來解決問題的靈感。
第二章《自然語言處理----從規(guī)則到統(tǒng)計》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風順的,這是自然界的普遍真理吧!
第三章《統(tǒng)計語言模型》:自然語言的處理找到了一種合適的方法---基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學方法給它一個很小的概率。以前學概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學的魅力就在于將復雜的問題簡單化。
第四章《談談中文分詞》:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。
第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面某幾個時刻的狀態(tài)有關。基于大量數(shù)據(jù)訓練出相應的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會涉及到一些經(jīng)典的算法(維特比算法等)。關于這個模型,沒有實際實現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。
第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學術成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關鍵是他的思想和他的道。賈里克尼教授治學嚴謹、用心對待自己的學生,對于學生的教導,教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學習,最后在辦公桌前過世了。讀了這章我總結出的一句話是“思想決定一個人的高度”。
在這章中對于少年時的教育,以下幾點值得借鑒:
1、少年時期其實沒有必要花那么多時間讀書,他們的社會經(jīng)驗、生活能力以及在那時樹立起的志向將幫助他們一生。
2、中學時花大量時間學會的內(nèi)容,在大學用非常短的時間就可以讀完,因為在大學階段,人的理解力要強很多。
3、學習(和教育)是一個人一輩子的過程。
4、書本的內(nèi)容可以早學,也可以晚學,但是錯過了成長階段卻是無法補回來的。
第八章《簡單之美----布爾代數(shù)和搜索引擎的索引》:布爾是19世紀英國的一位中學教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中出現(xiàn)而設置為0和1,為了適應索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10-20個不好的搜索結果,積累一段時間才有感覺。有時候,學習、處理問題,可以從不好的方面入手,效果可能更好。
第九章《圖論和網(wǎng)絡爬蟲》:圖的遍歷分為“廣度優(yōu)先搜索(Breadth-FirstSearch,簡稱BFS)”和“深度優(yōu)先搜索(Depth-FirstSearch,簡稱DFS)。互聯(lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務器的任務,這就是網(wǎng)絡設計和程序設計的藝術了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復下載。另外,在圖論出現(xiàn)的很長一段時間里,實際需求的圖只有幾千個節(jié)點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學方法就是這樣,看上去沒有什么用途,等到具體的應用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復雜的東西,需要很好的設計。
第十章《PageRank----Google的民主表決式網(wǎng)頁排名技術》:搜索返回了成千上萬條結果,如何為搜索結果排名?這取決與兩組信息:關于網(wǎng)頁的質量信息以及這個查詢和每個網(wǎng)頁的相關性信息。PageRank算法來衡量一個網(wǎng)頁的質量,該算法的思想是如果一個網(wǎng)頁被很多其他網(wǎng)頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關重要的。該算法并不難,可是當時只有佩奇和布林想到了,為什么呢?
第十一章《如何確定網(wǎng)頁和查詢的相關性》:構建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質量以及確定一個網(wǎng)頁和某個查詢的相關性。搜索關鍵詞權重的科學度量TF—IDF,TF衡量一個詞在一個網(wǎng)頁中的權重,即詞頻。IDF衡量一個詞本身的權重,對主題的預測能力。一個查詢和該網(wǎng)頁的相關性公式由詞頻的簡單求和變成了加權求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN??此茝碗s的搜索引擎,里面的原理竟是這么簡單!
第十二章《地圖和本地搜索的最基本技術——有限狀態(tài)機和動態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機,當用戶輸入的地址不太標準或有錯別字時,希望進行模糊匹配,提出了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機和動態(tài)規(guī)劃問題需要看相關的算法講解,才能深入理解,目前對其并未完全理解。
第十三章《GoogleAK-47的設計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進的目標。辛格要求對于搜索質量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學。
第十四章《余弦定理和新聞的分類》:將新聞根據(jù)詞的TF-IDF值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。
第十五章《矩陣運算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結果,在利用余弦計算得到比較精確地結果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。
第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數(shù)產(chǎn)生器,常用的算法有MD5或者SHA-1等標準。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1.8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。
第十七章《由電視劇《暗算》所想到的——談談密碼學的數(shù)學原理》:RSA加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數(shù)學思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統(tǒng)計獨立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。
第十八章《閃光的不一定是金子——談談搜索引擎反作弊問題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術好,而是到它那里作弊的人少。
第十九章《談談數(shù)學模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。一個正確的數(shù)學模型應該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。
第二十章《不要把雞蛋放在一個籃子里——談談最大熵模型》:對一個隨機事件預測時,當各種情況概率相等時,信息熵達到最大,不確定性最大,預測的風險最小。最大熵模型的訓練非常復雜,需要時查看資料做進一步的理解。
第二十一章《拼音輸入法的數(shù)學原理》:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復,而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的*均最短碼長。全拼不僅編碼*均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實現(xiàn)拼音轉漢字的有效算法,而且可以轉換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關鍵就在于建立更好的語言模型??梢愿鶕?jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學模型。要做出最有效的輸入法,應該自覺使用信息論做指導。
第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務;另一個是將這個方法發(fā)揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學生關鍵的指導;寬松的管理方式,培養(yǎng)各有特點的年輕學者;是一個有著遠見卓識的管理者。他的學生為人做事風格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·*。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質和追求。
第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學原理在于完全隨機的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進行簡單的算術運算,因此速度非??臁!毒幊讨榄^》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。
第二十四章《馬爾科夫鏈的擴展——貝葉斯網(wǎng)絡》:貝葉斯網(wǎng)絡是馬爾科夫鏈的擴展,由簡單的線性鏈式關系擴展為網(wǎng)絡的關系,但貝葉斯網(wǎng)絡仍然假設每一個狀態(tài)只與它直接相連的狀態(tài)相關。確定貝葉斯網(wǎng)絡的拓撲結構和各個狀態(tài)之間相關的概率也需要訓練。在詞分類中,可以建立文章、主題和關鍵詞的貝葉斯網(wǎng)絡,用來得到詞的分類。貝葉斯網(wǎng)絡的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網(wǎng)絡導出的模型是非常復雜的。
第二十五章《條件隨機場和句法分析》:句法分析是分析出一個句子的句子結構,對于不規(guī)則的句子,對其進行深入的分析是很復雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數(shù)學模型。條件隨機場與貝葉斯網(wǎng)絡很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網(wǎng)絡是有向圖。條件隨機場的訓練很復雜,簡化之后可以參考最大熵訓練的方法。對于條件隨機場的詳細參數(shù)及原理還不理解。
第二十六章《維特比和他的維特比算法》:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現(xiàn)實時的輸出,這看似簡單,但在當時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣出去,并應用到了實際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDMA技術霸占了3G的市場,可見遠見的洞察力是多么的重要。
第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實就是K均值聚類問題,設置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標函數(shù)如果是個凸函數(shù),則一定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應該考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標的過程。
第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據(jù)廣告的預估點擊率來客觀的推送廣告收入多。點擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數(shù)模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。
第二十九章《各個擊破和Google云計算的基礎》:分而治之,各個擊破是一個很好的方法,Google開發(fā)的MapReduce算法就應用了該方法。將一個大任務分成幾個小任務,這個過程叫Map,將小任務的結果合并成最終結果,這個過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復雜的事情了??梢姶罅坑玫降?、真正有用的方法往往簡單而又樸實。
附錄《計算復雜度》:計算機中復雜度是以O()來表示的,如果一個算法的計算量不超過N的多項式函數(shù),則稱算法為多項式函數(shù)復雜度的(P問題),是可以計算的。若比N的多項式函數(shù)還高,則是非多項式問題,實際上是不可計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研究的焦點,因為現(xiàn)實中好多問題都是NP問題。另外還有NP-Complete問題(NP問題可以在多項式時間內(nèi)規(guī)約到該問題)和NP-Hard問題,對于這兩種問題,需要簡化找到近似解。
整體上,《數(shù)學之美》這本書讓我了解了很多文本處理,數(shù)據(jù)挖掘相關的知識,學到了很多。其中,簡單美以及一些科學家的大師風范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!
《數(shù)學之美》讀書筆記4
這本書一共31章,主要介紹了這些數(shù)學方法:統(tǒng)計方法、統(tǒng)計語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數(shù)、圖論、網(wǎng)頁排名技術、信息論、動態(tài)規(guī)劃、余弦定理、矩陣運算、信息指紋、密碼學、搜索技術、數(shù)學模型、最大熵模型、拼音輸入法、貝葉斯網(wǎng)絡、句法分析、維特比算法、各個擊破算法等。從第一章開始其明了幽默的語言就深深的吸引了我,讓我覺得如果早一點看這本書,也許數(shù)學之于我就是另一番天地。
第一章里作者從原始人類的通信方式開始入手,人類最早利用聲音進行的通信依賴于開篇給出的"編碼-傳輸-解碼"的基本原理,指出原始人的通信方式和今天的通信方式?jīng)]什么不同,這世界上近現(xiàn)代最普遍的原理大部分都在人類發(fā)展的歷史上被無意識的使用著。
第六章信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的"大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
這本書里也能找到不少在學的課程知識,如大學專業(yè)課里,數(shù)電總是要比模電簡單不少,而自然界里大部分的信號都屬于模擬信號。所謂模擬信號,是指從時間和數(shù)值兩種維度上看來都是連續(xù)變化的信號。在實際電路中,模/數(shù)轉換是一個很重要的過程,將預處理的模擬信號經(jīng)過模/數(shù)變換為數(shù)字信號,然后進行數(shù)字信號處理。而數(shù)字化處理有很多優(yōu)點,比如功能強大、抗干擾能力強、易于傳輸?shù)取?/p>
簡而言之,如果沒有數(shù)學,就沒有數(shù)字信號處理和傳輸?shù)母拍?,而?shù)字信號傳輸在當下大規(guī)模的集成電路里是必不可少的,這是通信成功的基本要求。
作者把生活中遇到的復雜的問題,以簡單清晰,直觀的模型或者公式展現(xiàn)出來。我們可能過于注意生活中的種種奇妙現(xiàn)象,往往忽略了追求其理論邏輯的演繹,而這也是大部分問題的主要根源。
羅素曾經(jīng)說過:"數(shù)學,如果正確地看,不但擁有真理,而且也具有至高的美";愛因斯坦也曾說過:"純數(shù)學使我們能夠發(fā)現(xiàn)概念和聯(lián)系這些概念的規(guī)律,這些概念和規(guī)律給了我們理解自然現(xiàn)象的鑰匙。"數(shù)學在所有科學領域起著基礎和根本的作用。"哪里有數(shù),哪里就有美".在這里,我也想把《數(shù)學之美》真誠推薦給每一位對自然、科學、生活有興趣有熱情的朋友,不管你是從事職業(yè),讀一讀它,會讓你受益良多。
吳軍老師在《數(shù)學之美》中提到:"這本書的目的是講道而不是講術。很多具體的搜索技術很快會從獨門絕技到普及,再到落伍,追求術的人一輩子工作很辛苦。只有掌握了搜索的本質和精髓才能永遠游刃有余".回到我們?nèi)粘5纳钪?,需要學習的東西、技術太多太多,如果一味地只為去追技術的腳步,那么我們也會很累很累。然而基本的原理卻是沒有怎么變化的。只見森林,不見樹木,難免迷失;站在高處向下看,也許我們一直看不到底,但是站在底處卻是可以看見底的。
《數(shù)學之美》讀書筆記5
我是在讀了吳軍博士的《浪潮之巔》之后,發(fā)現(xiàn)推薦了《數(shù)學之美》這本書。我到豆瓣讀書上看了看評價,就果斷在當當上下單買了一本研讀。本來我以為這是一本充滿各種數(shù)學專業(yè)術語的書,讀后讓我非常震撼的是吳軍博士居然能用非常通俗的語言將自然語言處理等高深理論解釋的相當簡單。在李開復博士之后,吳軍博士又成為了目前備受矚目的具有深厚技術背景的作家。對于我來說,讀這本書有掃盲的功效,讓我知道了很多以前不知道的東西。我的想法是在研究生階段,不只局限于導師的研究方向,通過更加廣泛的涉獵知識,去尋找一個自己喜歡的研究領域。如果找到了這樣一個領域,那么我就讀博士。如果沒有的話,那么我想還是工作算了。
1、學科之間的聯(lián)系是如此的重要
全書主要是圍繞著吳軍博士所研究的自然語言處理方向來講述一些應用在這個研究領域的數(shù)學知識,用了很大篇幅講解了將通信的原理應用到自然語言處理上所取得的"巨大成功。以前學習計算機網(wǎng)絡的時候,學過一個香農(nóng)定理。對香農(nóng)的認識就從香農(nóng)定理開始,因為考研會考相關的計算題??戳诉@本書才知道,香農(nóng)的《信息論》對今天的影響真的是不可估量。通過這樣一個過程,我也對以前的本科學校的學科建設產(chǎn)生了一些憂慮。對于培養(yǎng)計算機人才來說,無論是培養(yǎng)應用型人才,還是培養(yǎng)研究型人才,都應該與電子、通信有一定的交叉,這樣對學生思考問題的啟發(fā)與視野的開闊有著重要的作用。計算機本身就是從電子、通信、數(shù)學等學科中抽出來的新興的學科,在發(fā)展了多年之后,我們發(fā)現(xiàn)它仍然需要繼承一些傳統(tǒng)?;叵胱约旱谋究扑哪辏系母嗟恼n時
語言類、技術類的課程,這些課程的確對提升學生的就業(yè)有很大幫助。但是我想說的是,一個忽視數(shù)學基礎、學科交叉的學校,他無法成為一所國內(nèi)的一流大學。作為一個母校培養(yǎng)的學生,我深知改革的阻力與困難,但是我希望母校的計算機學院能越辦越好。我們現(xiàn)在已經(jīng)培養(yǎng)出很多高薪優(yōu)秀的技術人才,我希望將來也能培養(yǎng)出更多的研究型人才。
2、看起來很牛的東西卻用著難以置信的簡單數(shù)學原理
在整本書中讓我最為印象深刻的是解釋Google搜索的原理,居然就是簡單的布爾代數(shù)運算。這個的確讓我大跌眼鏡,我一直認為搜索時一個非常復雜而龐大的問題,其數(shù)學原理也是相當高深的,但是吳軍博士的解釋讓我大開眼界。與此同時也知道了Google為什么牛,牛在哪了。搜索的原理雖然非常簡單,但是搜索是一個需要對海量數(shù)據(jù)進行操作的工作。Google在海量數(shù)據(jù)的處理方面的確是相當先進的,MapReduce、BigTable等等一些技術的發(fā)明與應用使得Google在搜索上無出其右。目前分布式存儲、分布式計算、數(shù)據(jù)倉庫與存儲等研究領域近些年來的大熱也說明Google在引領研究方向上的超凡本領。
3、感謝概率老師的教誨
在大二的時候,有一個在我們學生中聲望很高的概率老師,他在課程即將結束的時候跟我們說我們將的是前幾章,這些事概率論與數(shù)理統(tǒng)計的基礎。對于你們計算機的學生來時,后面的章節(jié)才是最有用的,以后一定要好好的研究,弄上一兩個在你的畢業(yè)設計上就會讓你畢業(yè)設計提升一個檔次,有可能驗收你畢業(yè)設計的老師也不懂。我當時對他的話沒有特別在意,我只關心期末考試要考哪些題目,因為我那個學期的概率課基本上都在睡覺,只有他講笑話的時候不睡。我看《數(shù)學之美》后發(fā)現(xiàn)馬爾科夫鏈、貝葉斯網(wǎng)絡之后,對以前的概率老師充滿無限的敬意。我發(fā)現(xiàn)我們再本科階段學習的《高等數(shù)學》、《線性代數(shù)》、《概率論與數(shù)理統(tǒng)計》在計算機學科應用較多的要數(shù)概率論與數(shù)理統(tǒng)計,還有一門我學的不好的《離散數(shù)學》在計算機中也是有著舉足輕重的地位。我在看米歇爾的《機器學習》時也發(fā)現(xiàn)很多熟悉的概率論與數(shù)理統(tǒng)計的知識,這讓我不得不開始考慮重新彌補自己的數(shù)學短板。我的想法是在研一這一年把概率論與數(shù)理統(tǒng)計、線性代數(shù)、離散數(shù)學盡我最大的努力補一補,希望他們對我今后的學習有所幫助。
4、說說作者吳軍博士
吳軍博士寫的書對于學習計算機的學生來說,讀起來有種說不出的親切感。可能這跟他是技術出身的原因有關,流暢的文筆、質樸的文風也讓人讀起來很舒服??锤邥运稍趦?yōu)酷上的《曉說》就知道,在硅谷有著眾多的華裔工程師,他們很多都來自清華、北大等國內(nèi)的名牌大學,這些人在美國實現(xiàn)著自己的夢想。吳軍博士也曾是這其中的一員,我非常希望那些像吳軍博士一樣的牛人們能夠寫書或者來國內(nèi)的大學做一些演講、論壇等等,開闊一下我們的視野,傳授一下做學問的經(jīng)驗。與此同時,我也在想為什么我們國家那么多優(yōu)秀的IT人才都去了美國。
這個問題在我去蘋果公司在東軟信息學院組織的培訓過程中得到了答案,那個南京郵電的老師講了講*為什么不像美國那么有創(chuàng)造力。我們*人并不缺乏創(chuàng)造力,很多時候是我們所處的外部環(huán)境恰恰阻礙了創(chuàng)新。我想那么多優(yōu)秀的清華北大學子紛紛到大洋彼岸的美國,正是被美國開放的學術環(huán)境、創(chuàng)新氛圍所吸引,每個人都有自己的夢想,他們?nèi)ッ绹彩菫榱四軐崿F(xiàn)自己的夢想。以前都覺得他們是不愛國,現(xiàn)在長大了,對于這個問題看得更清楚了一點。
我想說我們的祖國在經(jīng)歷了改革開放30多年的飛速發(fā)展之后,目前正處于一個關鍵和脆弱的時期。我們靠著人口紅利取得了巨大的成就,我們能不能憑借人才紅利取得更大的成就還是未知。希望有更多的人才能像李開復博士、吳軍博士那樣,為我們這個民族青年的成長和國家發(fā)展做出貢獻。
《數(shù)學之美》讀書筆記6
讀完本書,第一感受:次奧!原來數(shù)學如此多的原理模型概念都可以用去解決各種IT技術問題啊。特別是語言識別和自然語言處理這類問題完全就是建立在數(shù)學原理之上的。總之,這本書就是用非常深入淺出的話去說明如何用數(shù)學方法去解決計算機的各種工程問題。這是一本講道,而不是術的書。 要完全讀懂這本書,我覺得至少需要掌握這三門課:高等數(shù)學,離散數(shù)學,還有概率論與數(shù)理統(tǒng)計。唉..我當初數(shù)學學得太水了,還掛了高數(shù)啊...有好的概念沒看懂,以后有時間在好好看吧。如果想搞計算機研究的話,數(shù)學基礎必不可少,別總在抱怨各種數(shù)學課上的東西一輩子都用不著。
發(fā)現(xiàn)作者對人類自然發(fā)展的認識非常深,其從語言,文字,數(shù)學的產(chǎn)生發(fā)展,信息的傳播記錄得出了這個結論:信息的產(chǎn)生傳播接收反饋,和今天最先進的通信在原理上沒有任何差別。就算是科學上最高深的技術,那也是模擬我們生活中的一些基本原理。
我們今天使用的十進制,就是我們扳手指扳了十次,就進一次位。而瑪雅文明他們數(shù)完了手指和腳指才開始進位,所以他們用的是二十進制。實際上*數(shù)字是古印度人發(fā)明的,只是歐洲人不知道這些數(shù)字的真正發(fā)明人是古印度,而就把這功勞該給了“二道販子”*人。
語言的數(shù)學本質
任何一種語言都是一種編碼方式,比如我們把一個要表達的意思,通過語言一句話表達出來,就是利用編碼方式對頭腦中的信息做了一次編碼,編碼的結果就是一串文字,聽者則用這語言的解碼方法獲得說話者要表達的信息。
自然語言處理模型
計算機是很笨的,他們唯一會做的就是計算。自然語言處理在數(shù)學模型上是基于統(tǒng)計的,說一個句子是否合理,就看看他出現(xiàn)的可能性大小如何,可能性就是用概率來衡量,比如一個句子,出現(xiàn)的概率為1/10^10,另一個句子出現(xiàn)的概率為1/10^20,那么我們就可以說第一個句子比第二個句子更加合理。當然這要求有足夠的觀測值,他有大數(shù)定理在背后支持。
最早的中文分詞方法
這句話:“同學們呆在圖書館看書”,如何分詞?應該是這樣:同學們/呆在/圖書館/看書.最先的方法是北航一老師提出的查字典方法,就是把句子從左道右掃描一遍,遇到字典里面出現(xiàn)的詞就標示出來,遇到復合詞如(北京大學)就按照最長的分詞匹配,遇到不認識的字串就分割成單個字,于是中文的分詞就完成了。但是這只能解決78成的分詞問題,但是“像發(fā)展*家”這種短語它是分不出來的。后來大陸用基于統(tǒng)計語言模型方法才解決了。
隱含馬可夫模型(沒這么看懂)
一直被認為是解決打多數(shù)自然語言處理問題最為快速有效的方法,大致意思是:隨機過程中各個狀態(tài)的概率分布,只與他的前一個狀態(tài)有關。比如對于天氣預報,我們只假設今天的氣溫只與昨天有關而與前天沒有關系,這雖然不完美,但是以前不好解決的問題都可以給出近視值了。
一個讓我印象深刻的觀點:
小學生和中學生其實沒有必要花那么多時間去讀書,其覺得最主要的是孩子們的社會經(jīng)驗,生活能力,和那時候樹立起來的志向,這將幫助他們一生。而中學生階段花很多時間比同伴多讀的課程,在大學以后可以用非常短的時間就可以讀完。因為在大學階段,人的理解能力要強很多,比如中學要花500小時才能搞明白的內(nèi)容,大學可能花100小時就搞定了。學習和教育是一個人一輩子的事情,很多中學成績好的人進入大學后有些就表現(xiàn)不太好了,要有不斷學習的動力才行。
余弦定理和新聞分類
我在新浪干過一年多新聞,這篇認真看了一篇,很吃驚原理cos x與新聞分析也有關系啊。google的新聞服務是由計算機自動整理分類的。而傳統(tǒng)的媒體如門戶網(wǎng)站是讓編輯讀懂新聞,找到主題,再分類分級別的,真苦逼啊...計算機自動分類原理是這樣:如一篇新聞有10000個詞,組成一個萬維向量,這個向量就代表這篇新聞,可以通過某種算法表達這個新聞主題的類型,如果兩個向量的方向一致,說明對應的新聞用詞一致,方向可用夾角表示,夾角可用余弦定理表示,所以當夾角的余弦值接近于1時,這兩篇新聞就可以歸為一類了。
沒看懂的東西:
布爾代數(shù):布爾代數(shù)把邏輯學和數(shù)學合二為一,給了我們一個全新的視角看世界...
網(wǎng)絡爬蟲的基本原來是利用了圖論的廣度優(yōu)先搜索和深度優(yōu)先搜索...
搜索引擎的結果排名用了稀疏矩陣的計算...
地圖最基本的計算是利用了有限狀態(tài)機和圖論的最短路徑...
密碼學原理,最大熵模型,拼音輸入法的數(shù)學模型,布隆過濾器,貝葉斯網(wǎng)絡等等...
任何事物都有它的發(fā)展規(guī)律,當我們認識了規(guī)律后,應當在生活工作中遵循規(guī)律,希望大家透過IT規(guī)律的認識,可 以舉一反三的總結學習認識規(guī)律,這樣有助于自己的境界提升一個層次。
任何問題總是能找到相應的準確數(shù)學模型,一個正確的數(shù)學模型在形式上應當是簡單的,一個好的方法在形式上應當也是簡單的。簡單才是美。
《數(shù)學之美》讀書筆記7
《數(shù)學之美》,一個從事多年工作的谷歌研究員眼中的數(shù)學。令我大飽眼福的是,大學里面的數(shù)學知識竟能如此廣泛運用到了計算機行業(yè)中。
在語音識別、翻譯,還有密碼學領域,有著許多基于概率統(tǒng)計的模型和思想。當然,貝葉斯公式是基礎,應用到隱含馬爾科夫鏈模型,神經(jīng)網(wǎng)絡模型。
在搜索中,一些相關性的計算,無不用到了概率的知識。在新聞分類中,用到了一些有關矩陣特征值、相似對角化的知識。當然,在圖像處理方面,矩陣變換可謂是無處不在。另外,在識別方面,有一些通信模型,涉及到了信道、誤碼率、信息熵。
最近剛開學也沒什么事,所以就想隨便找?guī)妆緯匆幌?,但最好別是那種太艱深晦澀的書。8月份一直到現(xiàn)在,吳軍寫的這本12年5月出版的《數(shù)學之美》一直盤踞京東、亞馬遜等各大網(wǎng)上商城科技類圖書的榜首,當然,還有早些時候出版的《浪潮之巔》也排在很靠前的位置。心想市場的力量應該能幫我挑出好書吧,于是就從圖書館借了一本來,一直到今天晚上把它給看完了。
因此想寫一點東西來總結、反思一下,反正剛開完班會也沒什么事干。
寫在前面的建議:如果你不討厭數(shù)學的話,強烈推薦這本書,網(wǎng)上也可以下到電子版,不過閱讀感覺上還是很不一樣的。
廢話就不多說了,《數(shù)學之美》其實是一本科普類的讀物,所面向的是接受過普通高等教育的人,完全不需要在特定領域有很深的造詣就可以看懂,大概懂一點線性代數(shù)、概率統(tǒng)計、組合數(shù)學、信息論、計算機算法、模式識別最好(雖然列舉了這么多,其實有些不懂也沒關系……),所以尤其適合信科的人看。內(nèi)容大部分是和人工智能、計算機相關的,這并非我所學的專業(yè),但作者比較擅長將看似復雜的原理用簡明的語言表達出來,所以可讀性還是很好的。
吳軍是清華大學畢業(yè)的,之前任職于Google,后來到了騰訊,這些文章都是發(fā)表在Google黑板報上的,后來經(jīng)過了重寫,所以網(wǎng)上下載的和書本內(nèi)容有所差異。由于吳軍本人是研究自然語言處理和語音識別的,所以統(tǒng)計語言模型的東西可能會多一點,不過我覺得這絲毫不妨礙全書數(shù)學之美的展現(xiàn)……感覺收獲還是挺多的,知識上的有一些,但更多還是思維方式上的。作者舉了很多例子試圖讓人明白很多看似復雜的高科技背后,基本原理其實是出乎意料簡單的(當然,必須承認第一個想到這些方法的人還是非常了不起的……)。比如高準確率的機器翻譯,看上去好像是計算機能夠理解各國語言,隱藏在背后的卻是很多具有大學理科學歷的人都非常清楚的統(tǒng)計模型和概率模型;再比如拼音輸入法的數(shù)學原理,早期的研究主要集中在縮短*均編碼長度,比如曾經(jīng)流行一時的五筆輸入法,而現(xiàn)今真正實用的輸入法卻是有很多信息冗余、編碼長度比較長的拼音輸入法,作者從信息論和市場的角度做了簡單的闡述;又比如新聞的自動分類,許多非IT領域的人可能會認為計算機可以讀懂新聞并進行分類,而實際上只是特征向量的抽取、多維空間中向量夾角的計算,非常非常簡單,但凡學過一點線性代數(shù)的人絕對是一看就懂的……當然,完美的實現(xiàn)還需要考慮很多細節(jié)和現(xiàn)實的情況,但這并不是這本書所關注的地方,數(shù)學之美在于其簡潔而不是繁瑣。
除了對于具體信息技術的剖析之外,作者還花了很大篇幅來講一些杰出人士的成長過程,特別是把這些人的成長經(jīng)歷和*學生的成長經(jīng)歷作對比。雖然作者并沒有明說,但字里行間多少流露出對于*高等教育以及很多*企業(yè)的批評,一是教育的功利性,缺乏寬松的獨立思考的環(huán)境,即使學了一堆理論也難有用武之地,自然也就缺乏創(chuàng)新性的成果;二是*企業(yè)的短視,大部分都不舍得在新框架開發(fā)上投資,而是坐享學術界和國外企業(yè)的研究成果。
總結一下呢,《數(shù)學之美》事實上不能帶給你編程能力的提升,也沒法讓人的數(shù)學水*有顯著的提升,但它在很大程度上讓你跳出教科書式的繁瑣細節(jié)的束縛,能夠從更宏觀的角度來思考信息世界背后的數(shù)學引擎的運行原理,讓人明白看似很高級、復雜的東西背后其實并不如我們所想象的那樣復雜,而我們所學的“枯燥”的數(shù)學真的可以“四兩撥千斤”,改變億萬人的生活。
《數(shù)學之美》讀書筆記8
《數(shù)學之美》是一本領域相關的數(shù)學概念書,生動形象地講解了關于數(shù)據(jù)挖掘、文本檢索等方面的基礎知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關鍵是要從中學到道----解決問題的方法,而不僅僅是術。書中也啟發(fā)式的引導讀者形成自己解決問題的道。
下面記錄一下自己讀這本書的一些感想:
第一章《文字和語言vs數(shù)字和信息》:文字和語言中天然蘊藏著一些數(shù)學思想,數(shù)學可能不僅僅的是一門非常理科的知識,也是一種藝術。另外,遇到一個復雜的問題時,可能生活中的一些常識,一些簡單的思想會給你帶來解決問題的靈感。
第二章《自然語言處理----從規(guī)則到統(tǒng)計》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風順的,這是自然界的普遍真理吧!
第三章《統(tǒng)計語言模型》:自然語言的處理找到了一種合適的方法---基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學方法給它一個很小的概率。以前學概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學的魅力就在于將復雜的問題簡單化。
第四章《談談中文分詞》:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。
第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面某幾個時刻的狀態(tài)有關?;诖罅繑?shù)據(jù)訓練出相應的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會涉及到一些經(jīng)典的算法(維特比算法等)。關于這個模型,沒有實際實現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。
第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯(lián)系的,要學會借鑒其他知識。
第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學術成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關鍵是他的思想和他的道。賈里克尼教授治學嚴謹、用心對待自己的學生,對于學生的教導,教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學習,最后在辦公桌前過世了。讀了這章我總結出的一句話是“思想決定一個人的高度”。
在這章中對于少年時的教育,以下幾點值得借鑒:
1、少年時期其實沒有必要花那么多時間讀書,他們的社會經(jīng)驗、生活能力以及在那時樹立起的志向將幫助他們一生。
2、中學時花大量時間學會的內(nèi)容,在大學用非常短的時間就可以讀完,因為在大學階段,人的理解力要強很多。
3、學習(和教育)是一個人一輩子的過程。
4、書本的內(nèi)容可以早學,也可以晚學,但是錯過了成長階段卻是無法補回來的。
第八章《簡單之美----布爾代數(shù)和搜索引擎的索引》:布爾是19世紀英國的一位中學教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中出現(xiàn)而設置為0和1,為了適應索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10-20個不好的搜索結果,積累一段時間才有感覺。有時候,學習、處理問題,可以從不好的方面入手,效果可能更好。
第九章《圖論和網(wǎng)絡爬蟲》:圖的遍歷分為“廣度優(yōu)先搜索(Breadth-FirstSearch,簡稱BFS)”和“深度優(yōu)先搜索(Depth-FirstSearch,簡稱DFS)?;ヂ?lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務器的任務,這就是網(wǎng)絡設計和程序設計的藝術了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復下載。另外,在圖論出現(xiàn)的很長一段時間里,實際需求的圖只有幾千個節(jié)點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學方法就是這樣,看上去沒有什么用途,等到具體的應用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復雜的東西,需要很好的設計。
第十章《PageRank----Google的民主表決式網(wǎng)頁排名技術》:搜索返回了成千上萬條結果,如何為搜索結果排名?這取決與兩組信息:關于網(wǎng)頁的質量信息以及這個查詢和每個網(wǎng)頁的相關性信息。PageRank算法來衡量一個網(wǎng)頁的質量,該算法的思想是如果一個網(wǎng)頁被很多其他網(wǎng)頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關重要的。該算法并不難,可是當時只有佩奇和布林想到了,為什么呢?
第十一章《如何確定網(wǎng)頁和查詢的相關性》:構建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質量以及確定一個網(wǎng)頁和某個查詢的相關性。搜索關鍵詞權重的科學度量TF—IDF,TF衡量一個詞在一個網(wǎng)頁中的權重,即詞頻。IDF衡量一個詞本身的權重,對主題的預測能力。一個查詢和該網(wǎng)頁的相關性公式由詞頻的簡單求和變成了加權求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN??此茝碗s的搜索引擎,里面的原理竟是這么簡單!
第十二章《地圖和本地搜索的最基本技術——有限狀態(tài)機和動態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機,當用戶輸入的地址不太標準或有錯別字時,希望進行模糊匹配,提出了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機和動態(tài)規(guī)劃問題需要看相關的算法講解,才能深入理解,目前對其并未完全理解。
第十三章《GoogleAK-47的設計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進的目標。辛格要求對于搜索質量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學。
第十四章《余弦定理和新聞的分類》:將新聞根據(jù)詞的TF-IDF值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。
第十五章《矩陣運算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結果,在利用余弦計算得到比較精確地結果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。
第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數(shù)產(chǎn)生器,常用的算法有MD5或者SHA-1等標準。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1.8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。
第十七章《由電視劇《暗算》所想到的——談談密碼學的數(shù)學原理》:RSA加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數(shù)學思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統(tǒng)計獨立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。
第十八章《閃光的不一定是金子——談談搜索引擎反作弊問題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術好,而是到它那里作弊的人少。
第十九章《談談數(shù)學模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。一個正確的數(shù)學模型應該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。
第二十章《不要把雞蛋放在一個籃子里——談談最大熵模型》:對一個隨機事件預測時,當各種情況概率相等時,信息熵達到最大,不確定性最大,預測的風險最小。最大熵模型的訓練非常復雜,需要時查看資料做進一步的理解。
第二十一章《拼音輸入法的數(shù)學原理》:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復,而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的*均最短碼長。全拼不僅編碼*均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實現(xiàn)拼音轉漢字的有效算法,而且可以轉換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關鍵就在于建立更好的語言模型。可以根據(jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學模型。要做出最有效的輸入法,應該自覺使用信息論做指導。
第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務;另一個是將這個方法發(fā)揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學生關鍵的指導;寬松的管理方式,培養(yǎng)各有特點的年輕學者;是一個有著遠見卓識的管理者。他的學生為人做事風格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·*。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質和追求。
第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學原理在于完全隨機的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進行簡單的算術運算,因此速度非????!毒幊讨榄^》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。
第二十四章《馬爾科夫鏈的擴展——貝葉斯網(wǎng)絡》:貝葉斯網(wǎng)絡是馬爾科夫鏈的擴展,由簡單的線性鏈式關系擴展為網(wǎng)絡的關系,但貝葉斯網(wǎng)絡仍然假設每一個狀態(tài)只與它直接相連的狀態(tài)相關。確定貝葉斯網(wǎng)絡的拓撲結構和各個狀態(tài)之間相關的概率也需要訓練。在詞分類中,可以建立文章、主題和關鍵詞的貝葉斯網(wǎng)絡,用來得到詞的分類。貝葉斯網(wǎng)絡的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網(wǎng)絡導出的模型是非常復雜的。
第二十五章《條件隨機場和句法分析》:句法分析是分析出一個句子的句子結構,對于不規(guī)則的句子,對其進行深入的分析是很復雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數(shù)學模型。條件隨機場與貝葉斯網(wǎng)絡很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網(wǎng)絡是有向圖。條件隨機場的訓練很復雜,簡化之后可以參考最大熵訓練的方法。對于條件隨機場的詳細參數(shù)及原理還不理解。
第二十六章《維特比和他的維特比算法》:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現(xiàn)實時的輸出,這看似簡單,但在當時確是很了不起的.。維特比并不滿足停留在算法本身,他將算法推廣出去,并應用到了實際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDMA技術霸占了3G的市場,可見遠見的洞察力是多么的重要。
第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實就是K均值聚類問題,設置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標函數(shù)如果是個凸函數(shù),則一定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應該考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標的過程。
第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據(jù)廣告的預估點擊率來客觀的推送廣告收入多。點擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數(shù)模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。
第二十九章《各個擊破和Google云計算的基礎》:分而治之,各個擊破是一個很好的方法,Google開發(fā)的MapReduce算法就應用了該方法。將一個大任務分成幾個小任務,這個過程叫Map,將小任務的結果合并成最終結果,這個過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復雜的事情了??梢姶罅坑玫降摹⒄嬲杏玫姆椒ㄍ唵味謽銓?。
附錄《計算復雜度》:計算機中復雜度是以O()來表示的,如果一個算法的計算量不超過N的多項式函數(shù),則稱算法為多項式函數(shù)復雜度的(P問題),是可以計算的。若比N的多項式函數(shù)還高,則是非多項式問題,實際上是不可計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研究的焦點,因為現(xiàn)實中好多問題都是NP問題。另外還有NP-Complete問題(NP問題可以在多項式時間內(nèi)規(guī)約到該問題)和NP-Hard問題,對于這兩種問題,需要簡化找到近似解。
整體上,《數(shù)學之美》這本書讓我了解了很多文本處理,數(shù)據(jù)挖掘相關的知識,學到了很多。其中,簡單美以及一些科學家的大師風范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!
《數(shù)學之美》讀書筆記9
最近看了這本《數(shù)學之美》,不得不感嘆一句,可惜早已身不在起點。
我讀書的時候,數(shù)學成績一直都很好,雖然離開學校已經(jīng)10多年,自覺當初的知識還是記得很多,6~7年前再考線性代數(shù)和概率論,還是得到了很高的分數(shù)。不過我也和大部分人一樣,覺得數(shù)學沒有太多用處,特別是高中和大學里面學的,那些三角函數(shù),向量,大數(shù)定律,解析幾何,除了在考試的題目里面用一下,*時又有什么地方可以用呢?
看了《數(shù)學之美》,驚嘆于數(shù)學的浩瀚和簡單,說它浩瀚,是因為它的分支涵蓋了科學的方方面面,是所有科學的理論基礎,說它簡單,無論多復雜的問題,最后總結的數(shù)學公式都簡單到只有區(qū)區(qū)幾個符號和字母。
這本書介紹數(shù)學理論在互聯(lián)網(wǎng)上的運用,*時我們在使用互聯(lián)網(wǎng)搜索或者翻譯功能的時候,時常會感嘆電腦對自己的了解和它的聰明,其實背后的原理就是一個個精美的算法和大量數(shù)據(jù)的訓練。那些或者熟悉或者陌生的數(shù)學知識(聯(lián)合概率分布,維特比算法,期望最大化,貝葉斯網(wǎng)絡,隱形馬爾可夫鏈,余弦定律,etc),一步步構建了我們現(xiàn)在所賴以生存的網(wǎng)上世界。
之所以覺得自己早已身不在起點,是因為上面這些數(shù)學知識,早已經(jīng)不在我的知識框架之內(nèi),就算曾經(jīng)學過,也不過是囫圇吞棗一樣的強記硬背,沒有領會過其中的真正意義。而今天想重頭在來學一次,其實已經(jīng)不可能了。且不說要花費多少的精力和時間,還需要的是領悟力。而這一些,已經(jīng)不是我可以簡單付出的。
不像物理、化學需要復雜的實驗來驗證,很多數(shù)學的證明,幾乎只要有一顆聰明的頭腦和無數(shù)的草稿紙,可是光是這顆聰明的頭腦,就可以阻攔掉很多人。有人說多讀書就會聰明,我不否認,書本的確會提供很多知識,可是不同的人讀同一本書也會有不同的收貨,這就限制于每個人的知識框架和認知水*。就如一個數(shù)學功底好過我的人,看這本書,就會更容易理解里面的公式和推導出這些公式的其他運用點,而我,只能站在數(shù)學的門口,感嘆一句,它真的好美吧。
當然,我暫時無法在實際生活中運用這些數(shù)學公式,可是書中提到的一些方法論,還是很有幫助的
1)一個產(chǎn)業(yè)的顛覆或者創(chuàng)新,大部分來自于外部的力量,比如用統(tǒng)計學原理做自然語言處理。
2)基礎知識和基礎數(shù)據(jù)是很重要性,只有足夠多和足夠廣的數(shù)據(jù),才可以提供有效的分析,和驗證分析方法的好壞。
3)先幫用戶解決80%的問題,在慢慢解決剩下的20%的問題;
4)不要等一個東西完美了,才發(fā)布;
5)簡單是美,堅持選擇簡單的做法,這樣會容易解釋每一個步驟和方法背后的道理,也便于查錯。
6)正確的模型也可能受噪音干擾,而顯得不準確;這時不應該用一種湊合的修正方法加以彌補,而是要找到噪音的根源,從根本上修正它。
7)一個人想要在自己的領域做到世界一流,他的周圍必須有非常多的一流人物。
《數(shù)學之美》讀書筆記10
很多人都覺得,數(shù)學是一個太高深、太理論的學科,不接近生活,對我們大多數(shù)人來說*時也根本用不到,所以沒必要去理解數(shù)學。但事情真的是這樣嗎?
其實不然,數(shù)學一直滲透在我們生活的各個方面,尤其是在今天這個信息時代,很多簡單樸素的數(shù)學思想,能發(fā)揮一般人很難想象的巨大作用。比如,計算機處理自然語言,用到的最重要工具是統(tǒng)計學的思想;計算機對新聞內(nèi)容的分類,依靠的是數(shù)學里的余弦定理;而電子電路的基本邏輯,則來源于僅有0和1兩個數(shù)字的布爾代數(shù)。
在《數(shù)學之美》里,吳軍用自己在工作中使用數(shù)學的親身經(jīng)歷,為我們展現(xiàn)了數(shù)學的重要性,以及他對數(shù)學之美的理解。吳軍是“得到”App專欄《吳軍的谷歌方法論》的主理人。曾先后供職于谷歌和騰訊,是著名的自然語言處理專家和搜索專家。同時,他還是位暢銷書作家,除了這本《數(shù)學之美》以外,還寫過《文明之光》《智能時代》《浪潮之巔》等多本暢銷書。
《數(shù)學之美》讀書筆記感觸3篇(擴展3)
——數(shù)學之美讀書筆記
數(shù)學之美讀書筆記1
最近看了這本《數(shù)學之美》,不得不感嘆一句,可惜早已身不在起點。
我讀書的時候,數(shù)學成績一直都很好,雖然離開學校已經(jīng)10多年,自覺當初的知識還是記得很多,6~7年前再考線性代數(shù)和概率論,還是得到了很高的分數(shù)。不過我也和大部分人一樣,覺得數(shù)學沒有太多用處,特別是高中和大學里面學的,那些三角函數(shù),向量,大數(shù)定律,解析幾何,除了在考試的題目里面用一下,*時又有什么地方可以用呢?
看了《數(shù)學之美》,驚嘆于數(shù)學的浩瀚和簡單,說它浩瀚,是因為它的分支涵蓋了科學的方方面面,是所有科學的理論基礎,說它簡單,無論多復雜的問題,最后總結的數(shù)學公式都簡單到只有區(qū)區(qū)幾個符號和字母。
這本書介紹數(shù)學理論在互聯(lián)網(wǎng)上的運用,*時我們在使用互聯(lián)網(wǎng)搜索或者翻譯功能的時候,時常會感嘆電腦對自己的了解和它的聰明,其實背后的原理就是一個個精美的算法和大量數(shù)據(jù)的訓練。那些或者熟悉或者陌生的數(shù)學知識(聯(lián)合概率分布,維特比算法,期望最大化,貝葉斯網(wǎng)絡,隱形馬爾可夫鏈,余弦定律,etc),一步步構建了我們現(xiàn)在所賴以生存的網(wǎng)上世界。
之所以覺得自己早已身不在起點,是因為上面這些數(shù)學知識,早已經(jīng)不在我的知識框架之內(nèi),就算曾經(jīng)學過,也不過是囫圇吞棗一樣的強記硬背,沒有領會過其中的真正意義。而今天想重頭在來學一次,其實已經(jīng)不可能了。且不說要花費多少的精力和時間,還需要的是領悟力。而這一些,已經(jīng)不是我可以簡單付出的。
不像物理、化學需要復雜的實驗來驗證,很多數(shù)學的證明,幾乎只要有一顆聰明的頭腦和無數(shù)的草稿紙,可是光是這顆聰明的頭腦,就可以阻攔掉很多人。有人說多讀書就會聰明,我不否認,書本的確會提供很多知識,可是不同的人讀同一本書也會有不同的收貨,這就限制于每個人的知識框架和認知水*。就如一個數(shù)學功底好過我的人,看這本書,就會更容易理解里面的公式和推導出這些公式的其他運用點,而我,只能站在數(shù)學的門口,感嘆一句,它真的好美吧。
當然,我暫時無法在實際生活中運用這些數(shù)學公式,可是書中提到的一些方法論,還是很有幫助的
1)一個產(chǎn)業(yè)的顛覆或者創(chuàng)新,大部分來自于外部的力量,比如用統(tǒng)計學原理做自然語言處理。
2)基礎知識和基礎數(shù)據(jù)是很重要性,只有足夠多和足夠廣的數(shù)據(jù),才可以提供有效的分析,和驗證分析方法的好壞。
3)先幫用戶解決80%的問題,在慢慢解決剩下的20%的問題;
4)不要等一個東西完美了,才發(fā)布;
5)簡單是美,堅持選擇簡單的.做法,這樣會容易解釋每一個步驟和方法背后的道理,也便于查錯。
6)正確的模型也可能受噪音干擾,而顯得不準確;這時不應該用一種湊合的修正方法加以彌補,而是要找到噪音的根源,從根本上修正它。
7)一個人想要在自己的領域做到世界一流,他的周圍必須有非常多的一流人物。
《數(shù)學之美》讀書筆記感觸3篇(擴展4)
——談美讀書筆記5篇
談美讀書筆記1
什么是“美”?用莎翁的話說:“這是一個問題?!?/p>
但毫無疑問,沒有人知道答案,包括歷史上任何時期的任何一位大師。他們耗盡畢生的精力也只是在人類對美的認知史上留下了自己的見解,但卻從未揭開“美”的面紗。其實在我看來,“美”并沒有一個具體的標準,因為很少會有人對美的認知完全相同。也就是說,“美”是無定義的。在《談美書簡》中,朱光潛先生引用了他的一位“老朋友”(我懷疑是作者本人)給“美”下的定義,并對其刻板和迂腐進行了深刻的批判。從這里我們不難看出,朱光潛先生也是反對套用空洞的抽象概念去給“美”鑄一座密不透風的牢籠的。
在朱光潛先生看來“人是審美的主體,人在改造客觀世界時也改造了人本身,人在審美中具有最高的意義,美離不開人?!蓖瑫r,美也是屬于社會價值范疇,它的適用主體是人。這便是說我們要去認識美。
那么我們該如何認識美呢?我的觀點是:不需要定義,只需要感受。
但在感受美的過程中,我們要找到正確的方法。在這一點上,朱光潛先生給了我們十分重要的提示,那便是既要把握對“美”的理性認識,又要注重對“美”感性認識。 我認為美是客觀存在的,但我們決不能只強調(diào)美的客觀性而將審美與人的思考力、情感與意識割裂開來。審美活動應是一種實踐活動,同時因為它具有目的性并且與人類的情感息息相關,所以審美必然要從主觀與客觀兩個角度去進行。否則,就如“形而上學”一樣,以孤立、靜止、片面的觀點認識世界,認為一切事物都是孤立的,永遠不變的。這顯然與主客觀結合的審美以及感性與理性的*衡相矛盾。 認識美和感受美一方面要求我們學習一些美學知識,另一方面我們也要注重審美實踐,多去參加各種藝術展覽,多與他人交流自己對美的看法。在審美的過程中,探求美的真諦未必是我們最終的追求,但享受這個美妙的過程卻是我們每個人都必不可少的經(jīng)驗。
而對于《談美書簡》這本書,朱光潛先生以耐心的口吻,以一位長者的身份用信件的方式,將自己*生對美學感悟向我們娓娓道來,并對一些重要而關鍵的問題向美學的入門者們進行了深入的探討。因而這本書相比較其他美學著作易懂。他在美學問題上對我們的幫助不僅是思想上的,也是方法上的。
談美讀書筆記2
第一次讀這本書,是我初二的時候。那時候的我,年幼懵懂,翻了前幾頁,卻不能讀懂,就認為我沒有那么高的文化造詣,讀不懂書中的奧秘,也不能理解朱自清先生書中所談的“美”,便一直耽擱下了。時至今日,當我重新翻開這一本書,里面的內(nèi)容已不似當年那般生澀難懂。
《談美》寫于1932年,是繼《給青年的十二封信》之后的“第十三封信”。他曾說:“在寫這封信時,我和*時寫信給我的弟弟妹妹一樣,面前一張紙,手里一管筆,想到什么就寫什么,什么書也不去翻看,我說所說的話都是你所能了解的,但是我不敢勉強要你全盤接收”。
本書順著美從哪里來、美是什么以及美的特點等問題層層展開,提出了他的美學研究的理想目標——“人生的藝術化”。 本書共分為十五個章節(jié),主要分為兩大部分“如何欣賞美和”以及“如何創(chuàng)造美”。前三章主要圍繞“美感是什么”進行了回答和探討;四至六章則針對“一般人將尋常快感、聯(lián)想以及考據(jù)與批評認為美感的經(jīng)驗是一種大誤解”這一問題進行說明;第七章和第八章則針對“自然美”這一概念進行闡釋;第九章到第十四章則引導讀者“如何創(chuàng)造美”;最后一章則約略地探討了人生與藝術的關系。從什么是“美感”這一最基本的概念入手,先是啟發(fā)讀者“如何欣賞美”,繼而“如何創(chuàng)造美”,再到如何“將美與人生意義相結合”,讓“零基礎”的讀者從最淺顯的概念開始,一步步深入美學的世界,從對美的“欣賞者”的角度慢慢轉變?yōu)椤皠?chuàng)造者”,最后在了解了這最基本的美學知識后開始嘗試將所學融入到生活中,上升到“如何做人”這一看似“深奧”的話題。然而作者輕松的筆觸與合理的結構安排,卻并沒有讓人感到絲毫的沉重感,將學術與對人生的指導意義渾然天成地融合,讓剛剛還在沉浸在“美學”的學術熏陶中讀者有了一種“柳暗花明又一村”的感覺,盡顯大師風范。朱先生 以一種對老朋友的語氣娓娓而談,將他對藝術與人生關系的深刻體悟滲透在質樸清新的文字中,“引讀者由藝術走入人生,又將人生納入藝術之中。全書最后呼吁人們”慢慢走,欣賞啊“,認為”欣賞之中都寓有創(chuàng)造,創(chuàng)造之中也都寓有欣賞“。
朱光潛從小接受的是私塾教育,父親老早便開始教他做科舉考試的”策論經(jīng)文“,這就是議論文的一種了?!蔽覐氖畾q左右到二十歲左右止,前后至少有十年的光陰都費在這種議論文上面。這種訓練造就我的思想的定型,注定我的寫作的命運。我寫說理文很容易,有理我都可以說得出,很難說的理我都能用很淺的話說出來?!爸旃鉂撟允贾两K都喜歡使用的寫作形式,他追求的散文的審美效果,如同朋友之間促膝談心,開誠布公,家常白話,娓娓道來 。《談美》的 讀者乃是中學生, 朱先生在 寫作時必須放下身段降低高度,必須將抽象的概念和高深的道理簡單化通俗化 。所以朱光潛的說理文總是 洞見源于生活,來自體驗 。讀《談美》,讓我們覺得,美并不是高高在上的存在,而是就在我們身邊、觸手可及的東西。
《談美》第一章《我們對于一棵古松的三種態(tài)度》,恰到好處地體現(xiàn)了朱光潛的自我評論:”很難說的理我都能用很淺的話說出來“。朱光潛談美學 ,不像其他文學家那樣用概念、用文字 抽象地空談, 而是 從真、善、美三大人類價值的基本分野入手,他把*三種抽象價值轉化為”我們對于一棵古松的三種態(tài)度“,深入淺出,舉重若輕將道理活生生地”化“在人人可以直接感受的經(jīng)驗之中,幽靈般虛無飄渺的”價值“擁有了形體,成了一種實實在在的東西,仿佛生活中可以觸摸的文具或碗筷。 所以我覺得,《談美》可能是我讀過的最好的關于美學的作品了!
我比較喜歡的是第二章:”當局者迷,旁觀者清“。朱先生為我們揭示了”美感“獲得一條重要途徑——即”美和人生有一個距離,要見出事物本身的美,須把他擺在適當?shù)木嚯x之外去看?!爸煜壬扔米陨淼囊粋€例子,認為距離自己遠的東西比自己身邊的東西更”美“,認為新奇的東西比熟悉的東西更具有美感。然后通過一系列的對比,說明全是觀點和態(tài)度的差別??吹褂?,看過去,看旁人的境遇,看稀奇的景物,都好比站在陸地上遠看海霧,不受實際的切身的利害牽絆,能安閑自在地玩味目前美妙的景致。而若持實用的態(tài)度看事物,它們都只是實際生活的工具或障礙物,都只能引起欲念或嫌惡。要見出事物本身的美,我們一定要從實用世界跳開,以”無所為而為“的精神欣賞它們本身的形象。無論是對于游歷新境時所感到的美,還是歷史上話題人物身世和人格的所感,其實都是將事物獨立于世俗之外,即使其與環(huán)境及一切條件絕緣,才能獲得”真正的美“,使其孤立于功利的用途。 美和實際應該保持一定的距離,要看到事物本身的美,必須把它擺在適當?shù)木嚯x去看,而且要拋開實際生活中的物欲去看,才能真正的沉浸在藝術的美感當中。一些人們對于熟悉的事物總是容易忽略它的美,因為太過熟識沒有了距離和神秘感,從實際生活中找不到真正的美。有了距離,才會有向往,美就會出現(xiàn)在你的眼前。 同樣的,優(yōu)秀的藝術作品應該是既有主觀又有客觀,或者說既要有作者的情感又要能跳出情感來客觀審視。美的藝術的創(chuàng)作,既不可過于主觀而物我不分,也不可絕對客觀而令作品趣味索然。所以,發(fā)現(xiàn)美的過程即是脫離實用性、逐漸走向客觀的過程。人事景物,脫離了我們的日常實用,其中所蘊含的美感才有機會被我們所發(fā)現(xiàn)。
在《談美》的最后一章,朱先生強調(diào)了,美與生活是息息相關的。 我們的生活其實就是一個大舞臺,生活是可以藝術化的,誰知道如何把握一種”度“,誰懂得”和諧“的規(guī)律誰就能藝術的生活,有情趣的生活,那是一種駕馭生活的本領,要辛苦要勤奮,有所得有所失,得失來去全賴一種心境,心多寬路就多寬,豁達樂觀的心境就是藝術,因為那是一種精神境界,是積極生活的態(tài)度,多留意生活,留意不經(jīng)意的一個靈感,細細體味心境、宇宙、斗轉星移,日月流轉的變化,有情趣的生活、帶一顆感激的心珍惜生活。在欣賞事物的時候,當你發(fā)現(xiàn)事物別人說不知的美后,不僅使自己身心愉悅,而且讓藝術細胞得以熏陶 。在發(fā)現(xiàn)、感受 美的同時,愉悅自己,享受生活。
當?shù)谑逭陆Y束,對于朱先生說的人生的藝術化在本節(jié)中已經(jīng)分析的及其透徹了。 讀完此書,更見朱先生對美、對藝術理解的功力?!甭撸蕾p??!“努力向前也不要忘了駐足停下來,看看眼前的風景,品味一下生活。
”美是事物的最有價值的一面,美感的經(jīng)驗是人生中最有價值的一面“?,F(xiàn)在人們都提倡要藝術的生活,讓我們的生活更精致更有情趣,心態(tài)的*衡也是關鍵所在,豁達樂觀的心境就是藝術。希望每個人都能擦亮自己的眼睛, 用心發(fā)現(xiàn)生活生活中的美,用正確的方法品味點點滴滴的美, 藝術生活從現(xiàn)在開始!
談美讀書筆記3
一位耄耋之年的老人,在生命的黃昏還用如此細膩且深入淺出的文筆,將深奧的美學知識娓娓道來。對朱光潛老先生不由地由衷敬佩。
書中,老先生"對自己漫長美學生涯和美學思想"進行了系統(tǒng)的"回顧和整理",也算是"給來信未復的朋友們"。在《談人》里,老先生指出"原始人類對美的追求和所從事的藝術活動,如人體裝飾、歌唱、音樂、舞蹈等,都直接源于原始民族休養(yǎng)生息的日常生活和經(jīng)驗,"美學,原來源于生活,貼近生活,真真切切地存在于我們身邊。其實,冥思細想,美無處不在。*五千年文化博大精深,就有不少美的傳承,比如唯美典雅的國畫、筆酣墨飽的書法、國之精髓的京劇、名揚四海的瓷器工藝……
現(xiàn)代文化下人們更是發(fā)展了更多美學的分支。我們生活的現(xiàn)代城市格局,在追求現(xiàn)代感的同時融入大量自然元素,讓自然在城市最大限度的得以保留加以體現(xiàn),生態(tài)綠化的興起,不正是體現(xiàn)人們在往更高層次的美的追求,在生活中時刻因外物美得到心理美,得到一種對于美感的滿足從而欣喜,這也成為一種美。
文學美,就是人類先進思想的結晶,中間許多個性鮮明飽滿的人物更是成為了美的代表?!栋屠枋ツ冈骸分心贻p貌美的吉卜賽女郎在危急時刻為卡西莫多挺身而出,給他救命之水。奇丑無比的敲鐘人卡西莫多之后屢救吉卜賽女郎,為她報仇雪恨。你能說卡西莫多不美么?《老人與?!分懈F困交加的圣地亞哥終日與海為伴,與比船還大的槍魚奮戰(zhàn)兩晝夜,并擊退啦鯊魚無數(shù)次的攻擊,雖然最后只拖回了一截白骨,但是我們能說他不是美的代表嗎?還有《弱種子也要發(fā)芽》里的老農(nóng),得知"我"的孩子聽力受損,看到他把弱種子拋棄很難過后,"抹了一把眼角的淚水,以既夸張又慈愛的姿勢,抓起了那些癟種子",讓它們"妥妥帖帖地躺在了新鮮、肥沃的土壤里",此刻的老農(nóng)在震撼人心的感動中能說不美嗎?
什么是美?如何學好美學?我們沒有系統(tǒng)地學習過美學,就真的不懂美了么?難道一定要學好美學,才算懂美?朱光潛先生書中舉例的杜甫詩句"癲狂柳絮隨風舞,輕薄桃花逐水流"所反映的"移情作用"就明確告訴我們把自己的生命和情趣外射,達到物我合一,用心感受美的存在,就是最本質的美了。文學美,建筑美,都可歸于此源。
生活中不是缺少美,而是缺少發(fā)現(xiàn)美的眼睛。羅丹的話已經(jīng)為我們指引了通向美的真理的正確方向。
談美讀書筆記4
美的本質。從柏拉圖開始許多的哲學家、美學家以及文藝理論家都進行了不懈的探討和研究。但最終的回答仍然莫衷一是;可見美的問題本身有著不可測度的奧秘。這同樣也告訴我們:美學是一種概念。美學之路,自然就艱難遠久。
朱光潛先生卻強調(diào):"美的研究,一定要從現(xiàn)實生活出發(fā),從生活中捕捉美的本源。"即人類對美的追求源于日常生活和經(jīng)驗。
學美學,首先應知道什么,了解什么。或者必備什么認知呢?朱光潛先生回答的是"條條大路通羅馬。"理解起來似乎就是:各人資凜不同,環(huán)境不同。學美的性質自然也不相同。美源于一點;自然最終也會歸就于一點。在探討和研究的道路上。盡管途徑各不相同。其結果卻都一樣。
談美與審美。最直觀的就是人。因為無論是對人的批評還是欣賞。都源于美的界定和價值。
對美的判斷力并非人類誕生時就存在。而是隨著我們?nèi)祟惖倪M化而逐步完善所成為的一種情感意識。
人是一個整體。一個多方面的內(nèi)在聯(lián)系著各種能力的有機統(tǒng)一體。它會將自然中的一些單一性適當融合。正是由于這種融合,才促使美體現(xiàn)在人類的"認知、情感、意志"中。
馬克思主義是現(xiàn)代美學的基本;但也并非學懂了馬克思主義就能學通美學。如果一個人學懂了馬克思主義,但是他并不具備認真刻苦、勇猛前進的時代精神;那么,他也不會在坎坷的學美之路上創(chuàng)造出什么有價值的東西來。
個人精神的結合產(chǎn)生了情感。人與人的結合產(chǎn)生了社會。當人們心中具備某些東西后;他們就會開始宣釋自己內(nèi)心的美的感受。這其中自然就會要勞動。用勞動將自己的內(nèi)心展現(xiàn)在這個社會。
展現(xiàn)的內(nèi)容,可能是單一的,也可能是繁復的。這其中不禁要包括許多的學術限界。即不要因為不超越學術界限而宣揚單一的美學。這樣不禁使美學空洞和抽象了。
藝術體現(xiàn)美,反映了現(xiàn)實中的自然。藝術是人對自然的加工創(chuàng)造,是一種勞動產(chǎn)物,所以藝術又被稱為"第二自然"。
藝術敘述了人們心中的情感,思維和夢想。通過藝術,也可以知道一個人的思維高度和精神生活。
藝術源于生活。生活通過修辭轉化成藝術。藝術也就無形式。盡管在過程中存在著多種"主義思想。"但藝術的終端。我想也會回歸于生活。
談美讀書筆記5
俗語說:愛美之心,人皆有之。自古以來,人們就自然而然的在不斷的追求美,無論是外表的美,還是心靈的美,只要能被認可為美的東西,就是值得追逐的。不僅如此,在這個過程中,人們也在不斷的加深對美的理解,對美的解讀也在變化。但無論怎么變,美的核心卻是始終如一的。
著名美學家朱光潛就有一本叫做《談美》的書,以自己的認識來談對美的理解。而這里的美,當然不僅僅是外表的美麗了。“人要有出世的精神才可以做入世的事情”,這是作者朱光潛為人的準則也是全書的一個基本觀點,我認為本書<談美>的一個落腳點就在于如何來“出世”。就像他自己說的,他是在談論美學的基本思想,在此基礎上將“美”推及到人生萬象,其中一個非常重要的思想便是“獨立之美”。
在作者第一封信中所舉的古松的例子,就是如此。庭院中的一顆古松,我們可以有三種不同的角度去看它,即以一種實用者的角度,如木匠;以科學家的客觀角度,如植物學家,另一種則是以美學家的角度去觀察。在三種不同的角度中,實用家想的是如何才能把這顆古松做成精美的家具,或者是一件精致的藝術品,而科學家所想的則是這顆孤松的年齡,屬類等,這兩者都在無意間把外在的意向同自己的行業(yè),學識等聯(lián)系起來,都把古松當作一塊踏腳石,由它跳到和它有聯(lián)系的各種事物上去,但是美學家則是把古松獨立于自我之外,從第三旁觀者的角度去看,以直覺去體味。獨立性體現(xiàn)在人格的獨立、思想的獨立,只有用獨立的人格和思想,才能在世間作為一個真正的“人”而存在,否則就如沒有靈魂的提線木偶一般,多么的可悲。但在如今的社會里,能真正“獨立”卻又是一件多么困難的事情。在學校,有一整套的教學計劃,所有的老師學生都必須按部就班的按照這個計劃來,每一個題老師都會教給你好幾種解答方法,每做一件事老師都會告訴你哪些可以想,哪些不能想。進入社會就更是如此了,過于的特立獨行只能帶來異樣的眼光,而這樣的后果就是你被排擠在他們的圈子之外。多少人在工作之余有思考過,他這一整天重復的行為對他的人生、對這個世界有什么意義。我們的社會只不過在一群機器的操作下循環(huán)往復罷了。
我們在這本書中看到了積極的訊號,在對美的追逐中,我們的生命也會變得絢麗多彩。在我們的生活中,永遠不可能一帆風順,總會有坎坷,特別是我們這些剛涉世的“學生娃”,無論是生活或是事業(yè),都是剛起步的時候,總免不了碰到各種各樣的挫折,困頓,總會感覺到為什么幸運之神為何總是遠離你,你的前途,你的"生活,被蒙上了一層厚厚的塵霧,讓你不知何為,不只為何,迷茫、困頓、沮喪、郁悶時常伴隨著你我,但如果此時你能以一種美學的態(tài)度去觀察這個世界,這種生活,這種狀態(tài),恰如一劑清涼劑,你就會發(fā)現(xiàn)一種全新的角度,全新的境界,你把你自己從你的生活中孤立出去,以第三人的角度去看你的生活,去欣賞,因為只有如此,你才能不受實際的切身的利害的牽絆,就能安閑自在的玩味于另一人的生活,并從中的得到美感。
你可曾遇到過“美”敲響你家的門?你能夠欣然的將美接近家門么?別想了,真正的美只存在于未來,只存在于我們積極的生活態(tài)度中。所以,對美心存敬畏之心,愿意窮盡一生,把“美”當成一種夢想來追逐,永遠也不要停下追逐美的腳步。
《數(shù)學之美》讀書筆記感觸3篇(擴展5)
——《唯一的聽眾》讀書筆記心得感觸3篇
《唯一的聽眾》讀書筆記心得感觸1
今天我們學了一篇課文——《唯一的聽眾》,這篇課文講述了作者從音樂白癡一直到讓專修音樂的妹妹大吃一驚,因為有了一位老太太的指點,老太太告訴作者她是一位聾子,實際上她是音樂學院最有聲望的教授,曾是樂團的首席小提琴手。老人以善意的謊言給了作者莫大的鼓勵,所以作者最后終于能演奏出真正的音樂。
“我想你一定拉得非常好,可惜我的耳朵聾了。如果不介意我在場,請繼續(xù)吧!”“我”感覺這句話里寫出了老人對“我”的鼓勵。她發(fā)現(xiàn)“我”準備逃走,發(fā)現(xiàn)“我”缺乏自信,于是就開始鼓勵“我”。然而“我”彈完后,她總會說:“真不錯。我的心已經(jīng)感受到了。謝謝你,小伙子?!彼尅拔摇庇辛司毲俚挠職?
現(xiàn)在我正在學琵琶,有一次上課,一整節(jié)課只學了不到半行簡譜,老師不是說我輪指不均勻,就是說我彈挑不規(guī)范,要不就說我坐姿不正確……我覺得她太煩人了,嘮嘮叨叨說一大堆我的不是,我覺得自己已經(jīng)很努力了,左手的食指就像在鋼絲上跳舞,手指已經(jīng)磨出了繭子,指肚上也起了泡,我一直忍著痛,老師還給我臉色看!
下課一走出老師的家門我就委屈地想大哭一場,突然沮喪地發(fā)現(xiàn)我把指甲忘在老師家里了,不情愿地又返回老師家,剛要敲門,聽見老師正在給下一個學生說:“我對她的要求高,因為她有潛力……”我的心情馬上就豁然開朗……
從課文里還有生活中我明白了我們只有堅持不懈才能成功!
《唯一的聽眾》讀書筆記心得感觸2
《唯一的聽眾》,這篇課文主要講的是:一個小男孩非常熱愛音樂,喜歡拉小提琴。但是因為沒有天分,被家人否定了。后來在一位老人的幫助下,漸漸地奏出了真正的音樂來。文中“老人謊稱自己耳聾來幫助男孩”,令我十分感動。
她是一位老人,不,應該是一位德高望重的音樂教授。當她發(fā)現(xiàn)一個熱愛拉小提琴的男孩兒缺乏自信心的時候,便下定決心要幫助他。便謊稱自己“耳聾”來幫助小男孩找回自信心。這難道不是老人美好的心靈嗎?盡管老人相貌**,但是她的心靈卻是那么美好!是的,外表美并不重要,而心靈的美才是真正的美!老人用心去感受小男孩的音樂,用真誠去幫助小男孩找回自信!最后終于看到了一個成功的小男孩。
我也有類似小男孩的經(jīng)歷:在我小的時候,我十分喜歡唱歌,可是,因為我自身的原因,每次自己單獨唱的時候都會跑調(diào),這令家人十分“好笑”。我很自卑,從此不敢當著家人的面唱歌,只好跑到家后面的竹林里去唱歌。有一天當我剛唱完一支歌,突然在身后響起了“啪,啪……”的掌聲。我的好朋友突然跳出來說:“唱得真不錯?!蔽倚呒t著臉,急急地搖著頭。她說:“這樣吧,下個星期的今天我們倆來唱歌比賽,就在這里?!蔽疫€沒有反應過來她就跑了。聽完好朋友的夸獎,我興奮,激動!又一支接一支地唱起來……那天很快就到了,我突然發(fā)現(xiàn)自己調(diào)唱準了,歌聲更美了,我非常感謝她——因為她的真誠。,讓我找回了自信。
那個小男孩之所以能成功,是因為他有了自信!而他的自信是老人所給予的,而給予別人自信的人,那就是最美的人!
《唯一的聽眾》讀書筆記心得感觸3
這通過讀了這篇《唯一的聽眾》,我感受到了一種鼓勵的力量是多么的強大,同時也感受到了一位老人美好的.心靈。
文章主要講述了:“我”由于拉小提琴的水*很差,被家人認為是音樂白癡,因此我不敢在家里拉琴,只敢去山林里空無一人時拉。一位“耳聾”的老人給予“我”微不足道的鼓勵使“我”找回了自信有聲望的音樂教授撒了一個善意的謊言,說自己是個聾子,使青年有勇氣在有人的場合下拉出水*很差的小提琴曲來。老人給予青年微不足道的鼓勵使青年的水*大幅度的提高了。使我感到這微不足道的鼓勵是無比強大的。一個動作、一種表情,看起來是微不足道的鼓勵,實際上能使一個失敗者成為成功者,能使一個沒有信心的人重拾信心。
我也有這種體會:一次硬筆比賽中,我根本沒有信心能獲得一個好成績,因爸爸的鼓勵:“拿不了獎沒什么大不了的!只要認真地去寫好你的每一個字,其它的不重要?!卑职值脑捳Z使我信心倍增,在比賽時我調(diào)整好自己緊張的心情,想著描字本里的結構、形狀,把字認真地寫下來。最后,我得了三等獎,我高興、興奮不已,我知道我要感謝的人是爸爸,才有今天的成績。
讀了《唯一的聽眾》使我明白了一個微不足道的鼓勵是一種強大的力量,也是信心的泉源。是給予沒有信心的人的鼓勵,是使有信心的人更是信心倍增。心靈的聽眾,你是沮喪時的微笑,你是氣餒時的鼓勵,你是灰心時的期盼,你是閃爍在人們心靈深處的啟明星!
《數(shù)學之美》讀書筆記感觸3篇(擴展6)
——《*凡的世界》讀書筆記感觸3篇
《*凡的世界》讀書筆記感觸1
《*凡的世界》這本書給了我很大的感觸。它讓我感受到了不同階級的人會有不同的命運。也讓我感受到了這個世界上事實的殘酷,這個世界很*凡,他沒有我們想象的那么美好,并不是每一個地方每一個年代都會有著像我們這樣的生活。也讓我有了珍惜自己的生活的想法。
我經(jīng)常會想如果我生活在與他們一樣的年代一樣的地方,我會和他們有一樣的心態(tài),或者會做出和他們一樣的事情嗎?若是再遭遇和他們一樣的事情之后,我是否還是能冷靜的面對。這些事情都發(fā)生在__之后。孫少*雖然沒有地位,也很貧窮,但是他書中的性格是自尊自愛的。后來他雖然高考落榜,但是他并沒有氣餒,沒有從此一闋不振,與很多同學在一次考試失利之后就對自己學習失去信心不同??吹搅怂乃魉鶠橹?,我一直在想,再這樣一個好的環(huán)境下,我為什么不能比他做得更好。更何況我遇到的困難也沒有他遇到了困難大。
其他的一生坎坎坷坷并不是一帆風順的,他沒有與我們一樣好的父母,他也沒有與我們一樣好的學習環(huán)境。他只有一份自尊自愛的心,和那不言放棄的精神??删褪沁@小小的精神和這自尊自愛,使他有了不一樣的成就,和活下去的動力。雖然他們有一個好的結局,但是他仍然樂觀的堅持下去了。
一本書告訴了我很多很多道理,其中最為經(jīng)典的就是一定要有一顆堅持的心。遇到任何事情我們不能輕言放棄。而是需要勇敢的去面對克服困難。要有自己的想法與自己的那一份沖勁。我們沒有和他一樣坎坷的生活,也沒有他遇到那么多困難。但是她有著世界上最好的東西,那就是堅持堅韌不拔的精神。
遇到事情不要放棄,坦然的去面對,古人云:車到山前必有路,船到橋頭自然直。這不也正告訴著我們嗎?
《*凡的世界》讀書筆記感觸2
我不是個很愛讀名著的人,在這個快速閱讀的年代,沒有精力去探討乏味情節(jié)下折射的社會現(xiàn)象亦或是某種深刻的道理。我是一個喜歡找茬的人,人們的贊不絕口讓我嗤之以鼻,我總是在想單調(diào)的文字能有多大的.魅力,能使如此多的人拜倒。在不屑的想法下和態(tài)度下,我是拾起了這本書,而事實上,我也為自己這種在錯誤的想法做出的舉動暗暗慶幸。
《*凡的世界》,它的內(nèi)容如它的名字一般,真的只是*凡的世界,*凡的農(nóng)民,*凡的生活,*凡的愛情。我已經(jīng)忘了連續(xù)幾天像這樣在圖書館中一坐一下午,第一次,感受到了文人騷客廢寢忘食讀書的舉動。不得不說它的確是一部令人瘋狂的作品。
無疑,愛情,親情,友情,是小說的三大主題元素,為轟轟烈烈的愛情所感動,為質樸的親情所感動,為樸素深沉的友情所感動。談起該書就不得不說說“三大家族”——田家,孫家,金家了。
作為艱苦奮斗,忍受磨難的代表之一,孫少*在高中的*凡生活拉開了帷幕。相同的家境讓他與郝紅梅接觸,亦是相同的愛好將這兩個人聯(lián)系在了一起,攜著青春的萌動,少*第一次打開了感情世界的扉門。然而,現(xiàn)實的生活卻不允許感情萌芽的成長,不是每個都可以坦然面對貧窮,原因并不是自卑,而是自尊,是的,沒有人知道自尊的力量有多強大,它可以成就一個人,也可以毀滅一個人,即便少*再表示友好,即使好友暗地進行恐嚇,報復,少*的第一份尚未展開的感情依舊毫不留情的離他而去了。這不能怪任何人,在現(xiàn)今物質橫流的社會也不乏拜金女,何況那些已被窮苦折磨了世世代代的可憐的人們呢…
《*凡的世界》讀書筆記感觸3
天色漸漸暗了下來,江水*靜下來,月亮正從水天相接的地方升起來,霎時間江面上灑遍了銀光;我深深的感受到在我受傷的時候,是您用溫暖的手撫*我的創(chuàng)傷。"我覺得自己就好象在坐牢似的,樣樣都要被人管,無聊極了。如果你們是孩子,你的父母這么說你,你是否感到?jīng)]有信心;全書字里行間流淌的全是濃濃的愛意,對土地,對父老鄉(xiāng)親的親情、友情、愛情。特別是孫少*,也是我最佩服的角色。一個出身卑微,家境極端惡劣的農(nóng)村少年,一個忍辱奮進,不卑不亢的學子,又或者說,農(nóng)村的孩子,因自卑而上進,以上進求尊嚴。少**凡的一生,分化于農(nóng)田、城市工地,還有煤煙四起的地下坑道中。田曉霞的出現(xiàn),給了少*的生活更加豐富的內(nèi)容。關于她的章節(jié),我都會一遍又一遍的通讀因為有她出現(xiàn)的時候,總會讓人覺得生活充滿了陽光,有了她,少*就算生活再苦也還是幸福的。田曉霞是少*的一個夢,她的犧牲,讓人認識到這就是生活??傊?,世間所有的真情都在這里得到了體現(xiàn)。
我想起冰心曾說:“愛在左,情在右,走在生命的兩旁。隨時撒種,隨時開花,將這一路長徑點綴得花香彌漫,使穿枝拂葉的行人,踏著荊棘,不覺得痛苦,有淚可落,卻不是凄涼。”這愛情,這友情,再加上一份親情,便一定可以使你的生命之樹翠綠茂盛。
讀完路遙先生的這一著作后,我的心如同書名一樣,*靜又*凡地接受了*淡的結局。但是,在這*凡的世界里,卻隱藏著一些不*凡的東西。當生命的搏斗,命運的抗爭,精神的洗禮,社會的變遷,愛情的萌動等第諸多人*織在一起的時候,就是一種不*凡。
《數(shù)學之美》讀書筆記感觸3篇(擴展7)
——《漢字書法之美》讀書筆記3篇
《漢字書法之美》讀書筆記1
“一直有一個紅線框成的界線存在,……我手中毛筆的黑墨不能隨性逾越紅線輪廓的范圍,九宮格使我學習‘界限’、‘紀律’、‘規(guī)矩’。 ”當我讀到此書開頭的這幾句話時,我便停了下來,抬頭透過高鐵的玻璃窗,望著窗外飛速后退的風景,沉思了良久。
人生就像這窗外的風景,美的風景,即使你想多看幾眼,但終歸會被疾馳的高鐵無情的拋向身后,不美的風景,即使你不想看,它依然會映入你的眼簾。
是啊,逝去的青春將一去不復返,筆者是幸運的,兒時可以感受父親很大的手掌包覆著他小小的手,一點一滴,一筆一畫,慢慢滲透填滿紅色雙鉤圍成的輪廓,一個有規(guī)有矩的人生便開始了。又突然想到蔚秉惠老師所著《書法初步》中有這樣一句話:“從小練習書法的孩子,長大后不會犯錯誤”,大概意思是這樣的,原話記不清了。嘆*漢字書法之美!嘆*文化精髓之深奧!
《漢字書法之美》讀書筆記2
從小開始,練字對某而言就是很困難的一件事——小學上書法課時,老師總會把大家寫的字貼墻上,然后把亮點圈出來。那時候,某是惟一一個作業(yè)上沒有圈的孩子。初中時某很羨慕班長的一手好字,到了高三閑著沒事就天天練硬筆。下了早讀第一節(jié)課前的十五分鐘全用來描塑料模板上的正楷了。一年后生生刻出一幅鋼板字體。后來某花了很久去改變自己,有人說某現(xiàn)在寫字沒高中時漂亮了,但某倒不這么認為。因為那是有活力的,比當初的一團死板多出了幾分生氣。而看蔣勛的書就有這樣的感覺。
他說書法,總是先從人說起。在*傳統(tǒng)的書法觀中,寫字是件很莊重的事情。而且,寫字的頭一件事是做人。講究的是“心正則筆正”,*人喜歡講品格,書法更是人品的體現(xiàn)。若是練得一手好字,便在人才濟濟的科舉考試中也是有加分的——由此可見書寫之重。
事實上,賞析任何書法作品,離了那個執(zhí)筆者,就會陷入云霧之中。比如天下行書第三的《寒食帖》,某一直無法真正的喜歡它,直到看了蔣勛的《蒼涼的獨白書寫》才明白,那是怎樣的一種復雜心境才造就出來的名帖啊。而湖南里耶古城出土的竹簡,總會讓人聯(lián)想到恪盡職守的城吏們。至于顏真卿的穩(wěn)重筆鋒更是令人印象強烈的想起那段大唐盛世——任何字體都是和那個時代無法割裂的,書寫本身就是在一段歷史。而那沉淀下來的墨跡既是本人的私有歷史也是公共的書寫歷史。
所以不能不認真的`去書寫罷。只有練好了規(guī)矩才能“隨心所欲而不愈矩”。
可是在那整體的歷史中,更無法忽略的是個人的筆意——那生動的變化又重何而來?
那些生動的筆觸,在蔣勛的筆下是那么美好。在點化它們之前,僅僅是紙上死板的一團油墨。書法是形象的藝術,蔣勛的書上會在一開始就介紹這種字體的來龍去脈,附上相應的帖,讓人明白它們之中蘊藏的歷史,同時又輔以個人性質介紹,一點點的點拔讀者如何從那些細節(jié)中體會它們的歷史、它們的情緒、它們最打動人心的部分。
大凡講述藝術史的書,不是流于瑣碎就是自我陶醉。而蔣勛的書法史里。沒有傳統(tǒng)的審美書慣用的四個字四個字那樣空洞乏味的不知所云,也沒有四*八穩(wěn)的照本宣科,有的是觸及讀者靈魂深處的悖動。
那,正是因為蔣勛從書法的美感中把人類最基本的感情萃取出來了罷。美學是抽象的,然而美的載體和審美本身并不是抽象的——尤其是書法,那是緣于人與社會的共鳴所產(chǎn)生的豐富意蘊的藝術啊。
《漢字書法之美》讀書筆記3
作為一名小學書法老師,為了讓中規(guī)中矩的書法課生動有趣、為了讓深奧的書法知識淺顯易懂,我發(fā)現(xiàn)了一本非常有意義的書法文化之書——《漢字書法之美》。這本書是著名美學家、文學家、畫家蔣勛的大作,分別從漢字演變、書法美學、感知教育、漢字與現(xiàn)代四個章節(jié)介紹漢字書法之美。通過閱讀這本書,讓我對漢字文化又有了新的認識。
大汶口文化出土的一件黑陶尊,器表上的一個符號,上端一個圓,下端一片曲線,最下端一座五峰尖山,這就是目前發(fā)現(xiàn)最古老的文字出現(xiàn)了。結繩、倉頡、毛筆、石鼓等等像放電影一樣在眼前一幕一幕閃過。
而書法美學又讓我對書法的五種書體的歷史有了新的心得體會:波磔與飛檐的隸書線條、碑帖的厚重與飄逸、行草到狂草的*正與險絕、宋代書法的意境與個性、元明書法的形式與表現(xiàn)及清代書法的古樸與拙趣。
又讓我對衛(wèi)夫人的《筆陣圖》細細感知。“高峰墜石”的點是形狀,是體積,是重量,也是速度;“千里陣云”的橫是水與墨在紙上的交互律動;“萬歲枯藤”的豎是一切看似枯老卻毫不妥協(xié)的堅強生命。
以小見大,讓人看出漢字書法之奇,不僅在指腕之間,甚至是呼吸,是養(yǎng)生,是身體的運動,是性情的表達,是做人處事的學習,是安定保佑的力量,最終乃臻而為是我與自己相處最真實的一種儀式,一如瑜珈、太極、舞蹈,乃至慢跑,由靜轉動,動中見靜,成就了一種肢體韻律之美。
《數(shù)學之美》讀書筆記感觸3篇(擴展8)
——《冒險小虎隊》讀書筆記感觸 (菁選3篇)
《冒險小虎隊》讀書筆記感觸1
這天,我看了一本《冒險小虎隊》的書。
這本書的主人公是三個好朋友:一個是11歲的男孩路克,特點是身邊總帶著百寶箱;一個是12歲的男孩帕特里克,特點是總穿著運動服;一個是12歲女孩碧吉,特點是身邊總帶著吃的東西。
里面講的是三個孩子組成了一個名叫“小虎隊”的小組,他們是專門制服壞蛋的能手。但他們的年齡太小,不能當偵探,于是就組成一個小隊來抓壞人。雖然不是警察,可他們往往能做的比警察更好。我認為“小虎隊”就像是壞人的天敵,能輕而易舉的打敗他們,獲得最終的勝利。
里面最吸引人的就是那張漂亮而神奇的卡了,它能夠看問題的答案,沒了它可不行,要不問題的答案就不會被人明白了。這張卡可能是什么液體弄成的,直接用眼睛看不到答案,但一套上它,就看得清清楚楚了。
這三位小虎隊員破了很多奇怪的案件,這可不容易,他們經(jīng)常被大人們指責,說他們不該玩?zhèn)商接螒颍伤麄円幌驔]有放下,一向在破案、抓壞人。
讀了這本書,我要向他們學習,*時仔細觀察身邊的事物,多認真思考,關心幫忙身邊的人,對自我有信心,相信自我必須能行!
《冒險小虎隊》讀書筆記感觸2
今日我讀了《冒險小虎隊》這本書,書中我最喜歡《夏令營的麻煩事》這個小故事。你們明白里面的資料嗎我來告訴你們吧!
冒險小虎隊在一個暑假里和學校的教師去夏令營,有一天,一個壞人用刀劃破了三條很值錢的`橡皮艇,又在兩塊滑水板上頭鉆了好幾個洞,又沉到湖里去了。害得孩子們沒法進行水上運動,打亂了夏令營的計劃。
第二天,那個壞人鉆進了營地做飯的帳篷,往儲食品的木箱里扔了幾顆臭彈,讓大家吃不到了燒烤。
小虎隊找了三天,才找到了那個壞人。因為他偷了超市的一個小東西想試試膽,那個超市老板不想讓夏令營的人們明白土地下頭的毒桶,所以讓他去把夏令營的人趕走,不然他爸爸就選不上鎮(zhèn)長。雖然遇到了很多困難,可是經(jīng)過大家的努力,最終還是把毒桶挖了出來,保護了大自然。
小虎隊十分勇敢,我必須會像他們一樣,對待任何事情都要敢于冒險,勇敢堅強,伸張正義。
《冒險小虎隊》讀書筆記感觸3
從前,班里流行看《冒險小虎隊》這一系列的書,我雖然看過幾本,但總滿足不了我的欲望,于是,我時時盼著有誰能給我一本《冒險小虎隊》。
最終,哥哥回來了,他給我?guī)Я艘槐尽睹半U小虎隊》,這可把我給高興死了,我每一天什么事都不干,就拿著書看,簡直到了癡迷的境界。
我在看書的時候,腦子里也在不停地想著東西,讀了冒險小虎隊我也有一些感悟。
這三個主人公都帶著冒險的精神來看問題,他們?nèi)巳硕枷矚g冒險,仿佛生活中若缺少了冒險就活不下去似的,波爾格,她是一個女孩,她喜歡收集各種長的其貌不揚的玩意兒,每件事情都自我親自動手,有時候,男孩做事還不如她。說到路克,他可是一個名副其實的小科學家,他以往自我做了一臺會走的冰箱,愛鼓搗電器和一切能夠遙控的玩意兒。說到帕克,他是一個體育冠軍,超喜歡鍛煉身體,但有時候腦子會突然短路,常常壞了很多大事。
我很喜歡他們?nèi)齻€人,喜歡他們幾個人冒險時的團隊合作,喜歡他們的聰明,我以后在我的生活中也會加入冒險的元素,我喜歡冒險,我相信,我會是第四只小虎。
我喜歡冒險小虎隊,更喜歡看《冒險小虎隊》。
《數(shù)學之美》讀書筆記感觸3篇(擴展9)
——讀書筆記之《愛的教育》
讀書筆記之《愛的教育》1
首先《愛的教育》的書名使我思考,在這紛紜的世界里,愛究竟是什么 帶著這個思考,我與這個意大利小學生一起跋涉,去探尋一個未知的答案。一個四年級小學生在一個學年十個月中所記的日記,包含了同學之間的愛,姐弟之間的愛,子女與父母間的愛,師之間的愛,對祖國的愛使人讀之,尤如在愛的懷抱中成長。
愛,像空氣,每天在我們身邊,因其無影無形常常會被我們所忽略,可是我們的生活不能缺少它,其實他的意義已經(jīng)融入生命。就如父母的愛,安利科有本與父母共同讀寫的日記,而現(xiàn)在很多學生的日記上還掛著一把小鎖。最簡單的東西卻最容易忽略,正如這博大的愛中深沉的親子之愛,很多人都無法感受到.愛之所以偉大,是因為它不僅僅對個人而言,更是以整個民族為榮的尊嚴與情緒。《愛的教育》一書中描寫了一群充滿活力,積極要求上進,如陽光般燦爛的少年.他們有的家庭貧困,有的身有殘疾,當然也有一些是沐浴在幸福中的.他們從出身到性格都有迥異之外,但他們身上卻都有著一種共同的東西—對自己的祖國意大利的深深的"愛,對親友的真摯之情。這里面不能忽視的是每個月老師讀給那群少年聽的"精神講話.這一個個小故事,不僅使書中的人物受到熏陶,同樣讓我這個外國讀者也被其中所體現(xiàn)出的強烈的情感所震撼.而面對我們的教育,愛應該是教育力量的源泉,是教育成功的基礎。愛是一次沒有盡頭的旅行,一路上邊走邊看,就會很輕松,每天也會有因對新東西的感悟,學習而充實起來。于是,就想繼續(xù)走下去,甚至投入熱情,不在乎它將持續(xù)多久。這時候,這種情懷已升華為一種愛,一種對于生活的愛。讀《愛的教育》,我走入安利科的生活,目睹了他們是怎樣學習,生活,怎樣去愛.在感動中,我發(fā)現(xiàn)愛中包含著對于生活的追求。
《愛的教育》中,把愛比成很多東西,確是這樣又不僅僅是這些。我想,"愛是什么"不會有明確的答案,但我知道"愛"是沒有限制的,小到同學之間的友好交談,老師對學生的鼓勵,父母對孩子無微不至的關愛,甚至萍水相逢的人們的一個微笑 …… 大到捐獻骨髓,獻血,幫助希望工程 …… 雖然如同空氣般的愛有時會被"污染","稀釋",甚至"消失",所以希望更多的人去感受一下樸實語言中深厚的愛,我想這部好小說將會把這種美好的感受帶給更多更多的人。
《數(shù)學之美》讀書筆記感觸3篇(擴展10)
——談美初中讀書筆記
談美初中讀書筆記1
近日讀朱先生的《談美》,頗為喜愛,感覺收獲頗多。對于《談美》其精辟、客觀的分析和論證實為欣賞
《談美》全書共有15個話題,也就是15封信。首先他先提出了美感修養(yǎng)的問題,用我們的話來說就是免俗。這是對利害圈和物欲要有一些超越,有一些精神的寄托,有一些理想與情趣,其中藝術活動就可以起到這種超越利害關系的作用,在無所為而為中凈化心靈,得到人格精神的提升。
縱觀全書,我印象最深的是第五章和第十三章,第五章談得是美感與聯(lián)想,提出聯(lián)想是以舊經(jīng)驗詮釋新經(jīng)驗,大多數(shù)情況下是散漫飄忽、偶然的。美感源于某事物能喚起甜美的聯(lián)想,但是聯(lián)想所伴的快感不是美感。藝術之所以為藝術,不在內(nèi)容而在形式。而第十三章則闡述了因襲格律的技巧可以分為兩項說,一項是關于傳達的方法,一項是關于媒介的知識。傳達的方法在于練習和模仿,繪畫和作文均是如此。關于媒介的知識的學習就是利用過去的經(jīng)驗,就是吸收已有文化,也就是模仿的一端。凡是藝術家都必須有一半是詩人,一般是匠人。他要有詩人的妙悟,要有匠人的手腕。妙悟來自性靈,手腕則可得于模仿。
在《談美》中,朱先生以自己親身的經(jīng)驗,談到了許多治學為人的道理。先生有言:我們干的是科學工作,是一項必須實事求是,玩弄不得一點虛假的艱苦工作,既要有清醒的頭腦和堅定的恒心,也要有排除一切阻礙和干擾的勇氣……是敷敷衍衍、蠅營狗茍的混過一生呢?還是下定決心,作一點有益于人類文化的工作呢?立志要研究任何一門科學的人首先都要端正人生態(tài)度,認清方向,要做老實人,說老實話,辦老實事。一切不老實的人做任何需要實事求是的科學工作都不會走上正路的。文品表現(xiàn)人品,以上這番話不但回答了青年人學習美學的態(tài)度問題,更代表了老人一以貫之的為人之道。
當局者迷,旁觀者清俗語講:距離產(chǎn)生美。其實朱光潛先生就明確的指出了美和生活的距離。真實世界籠罩了霧、雪或雨就容易給人們另外一種聯(lián)想,其狀態(tài)使真實世界同你我之間產(chǎn)生了距離,因而有了古往今來的詩情畫意等及賦美感的意境。就如同美學上的移情作用,把自己的情感轉移到外物上去,仿佛覺得外物也有同樣的感情。所謂:藝術來源于生活又高于生活。我想應該也有這個道理。美和實際應該保持一定的距離,要看到事物本身的美,必須把它擺在適當?shù)木嚯x去看,而且要拋開實際生活中的物欲去看,才能真正的沉浸在藝術的美感當中。一些人們對于熟悉的事物總是容易忽略它的美,因為太過熟識沒有了距離和神秘感,從實際生活中找不到真正的美。有了距離,才會有向往,美就會出現(xiàn)在你的眼前。
小小冊子,總共不過七、八萬字,由十三封書信結集而成。但它其中的每一行、每一字都滲透著老人躬親實踐了一輩子的認真態(tài)度,不由你不為之動容。人曰:一斑窺豹、一葉知秋,相信只這一小段文字,也足以讓你我了解進而欽佩起這位美學老人治學為人的態(tài)度吧。
推薦訪問:之美 感觸 讀書筆記 《數(shù)學之美》讀書筆記感觸3篇 《數(shù)學之美》讀書筆記感觸1 《數(shù)學之美》讀書筆記感觸100字