我愛你,你是自由的。
《Brief History of Machine Learning》
介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網絡、決策樹、SVM、Adaboost到隨機森林、Deep Learning.
《Deep Learning in Neural Networks: An Overview》
介紹:這是瑞士人工智能實驗室Jurgen Schmidhuber寫的最新版本《神經網絡與深度學習綜述》本綜述的特點是以時間排序,從1940年開始講起,到60-80年代,80-90年代,一直講到2000年後及最近幾年的進展。涵蓋了deep learning裏各種tricks,引用非常全面.
《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》
介紹:這是一份python機器學習庫,如果您是一位python工程師而且想深入的學習機器學習.那麽這篇文章或許能夠幫助到你.
《How to Layout and Manage Your Machine Learning Project》
介紹:這一篇介紹如果設計和管理屬於你自己的機器學習項目的文章,裏面提供了管理模版、數據管理與實踐方法.
《Machine Learning is Fun!》
介紹:如果你還不知道什麽是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麽推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步http://blog.jobbole.com/67616/
《R語言參考卡片》
介紹:R語言是機器學習的主要語言,有很多的朋友想學習R語言,但是總是忘記一些函數與關鍵字的含義。那麽這篇文章或許能夠幫助到你
《Choosing a Machine Learning Classifier》
介紹:我該如何選擇機器學習算法,這篇文章比較直觀的比較了Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature與Model權衡等問題。此外還有已經翻譯了的版本。
《An Introduction to Deep Learning: From Perceptrons to Deep Networks》
介紹:深度學習概述:從感知機到深度網絡,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本
《The LION Way: Machine Learning plus Intelligent Optimization》
介紹:<機器學習與優化>這是一本機器學習的小冊子, 短短300多頁道盡機器學習的方方面面. 圖文並茂, 生動易懂, 沒有一坨坨公式的煩惱. 適合新手入門打基礎, 也適合老手溫故而知新. 比起MLAPP/PRML等大部頭, 也許這本你更需要!具體內容推薦閱讀
《深度學習與統計學習理論》
介紹:作者是來自百度,不過他本人已經在2014年4月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麽聯系?那麽應該立即看看這篇文章.
《計算機科學中的數學》
介紹:這本書是由谷歌公司和MIT共同出品的計算機科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為5大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函數。4)概率,隨機行走。5)遞歸。等等
《信息時代的計算機科學理論(Foundations of Data Science)》
介紹:信息時代的計算機科學理論,目前國內有紙質書購買,iTunes購買
《Data Science with R》
介紹:這是一本由雪城大學新編的第二版《數據科學入門》教材:偏實用型,淺顯易懂,適合想學習R語言的同學選讀。
《Twenty Questions for Donald Knuth》
介紹:這並不是一篇文檔或書籍。這是篇向圖靈獎得主Donald Knuth提問記錄稿: 近日, Charles Leiserson, Al Aho, Jon Bentley等大神向Knuth提出了20個問題,內容包括TAOCP,P/NP問題,圖靈機,邏輯,以及為什麽大神不用電郵等等。
《Automatic Construction and Natural-Language Description of Nonparametric Regression Models》
介紹:不會統計怎麽辦?不知道如何選擇合適的統計模型怎麽辦?那這篇文章你的好好讀一讀了麻省理工Joshua B. Tenenbaum和劍橋Zoubin Ghahramani合作,寫了一篇關於automatic statistician的文章。可以自動選擇回歸模型類別,還能自動寫報告…
《ICLR 2014論文集》
介紹:對深度學習和representation learning最新進展有興趣的同學可以了解一下
《Introduction to Information Retrieval》
介紹:這是一本信息檢索相關的書籍,是由斯坦福Manning與谷歌副總裁Raghavan等合著的Introduction to Information Retrieval一直是北美最受歡迎的信息檢索教材之一。最近作者增加了該課程的幻燈片和作業。IR相關資源
《Machine learning in 10 pictures》
介紹:Deniz Yuret用10張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam’s razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.很清晰
《雅虎研究院的數據集匯總》
介紹:雅虎研究院的數據集匯總: 包括語言類數據,圖與社交類數據,評分與分類數據,計算廣告學數據,圖像數據,競賽數據,以及系統類的數據。
《An Introduction to Statistical Learning with Applications in R》
介紹:這是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的新書,並且在2014年一月已經開課
Best Machine Learning Resources for Getting Started
介紹:機器學習最佳入門學習資料匯總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麽熟悉,那麽我建議你先看一看中文的介紹。
My deep learning reading list
介紹:主要是順著Bengio的PAMI review的文章找出來的。包括幾本綜述文章,將近100篇論文,各位山頭們的Presentation。全部都可以在google上找到。
Cross-Language Information Retrieval
介紹:這是一本書籍,主要介紹的是跨語言信息檢索方面的知識。理論很多
探索推薦引擎內部的秘密,第 1 部分: 推薦引擎初探
探索推薦引擎內部的秘密,第 2 部分: 深度推薦引擎相關算法 - 協同過濾
探索推薦引擎內部的秘密,第 3 部分: 深度推薦引擎相關算法 - 聚類
介紹:本文共有三個系列,作者是來自IBM的工程師。它主要介紹了推薦引擎相關算法,並幫助讀者高效的實現這些算法。
《Advice for students of machine learning》
介紹:康奈爾大學信息科學系助理教授David Mimno寫的《對機器學習初學者的一點建議》, 寫的挺實際,強調實踐與理論結合,最後還引用了馮 • 諾依曼的名言: “Young man, in mathematics you don’t understand things. You just get used to them.”
分布式並行處理的數據
介紹:這是一本關於分布式並行處理的數據《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。著重介紹了各種神級網絡算法的分布式實現,做Distributed Deep Learning 的童鞋可以參考下
《“機器學習”是什麽?》
介紹:【“機器學習”是什麽?】John Platt是微軟研究院傑出科學家,17年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt和同事們遂決定開設博客,向公眾介紹機器學習的研究進展。機器學習是什麽,被應用在哪裏?來看Platt的這篇博文
《2014年國際機器學習大會ICML 2014 論文》
介紹:2014年國際機器學習大會(ICML)已經於6月21-26日在國家會議中心隆重舉辦。本次大會由微軟亞洲研究院和清華大學聯手主辦,是這個有著30多年歷史並享譽世界的機器學習領域的盛會首次來到中國,已成功吸引海內外1200多位學者的報名參與。幹貨很多,值得深入學習下
《Machine Learning for Industry: A Case Study》
介紹:這篇文章主要是以Learning to Rank為例說明企業界機器學習的具體應用,RankNet對NDCG之類不敏感,加入NDCG因素後變成了LambdaRank,同樣的思想從神經網絡改為應用到Boosted Tree模型就成就了LambdaMART。Chirs Burges,微軟的機器學習大神,Yahoo 2010 Learning to Rank Challenge第一名得主,排序模型方面有RankNet,LambdaRank,LambdaMART,尤其以LambdaMART最為突出,代表論文為: From RankNet to LambdaRank to LambdaMART: An Overview 此外,Burges還有很多有名的代表作,比如:A Tutorial on Support Vector Machines for Pattern Recognition,Some Notes on Applied Mathematics for Machine Learning
100 Best GitHub: Deep Learning
介紹:100 Best GitHub: Deep Learning
《UFLDL-斯坦福大學Andrew Ng教授“Deep Learning”教程》
介紹:本教程將闡述無監督特征學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。本教程假定機器學習的基本知識(特別是熟悉的監督學習,邏輯回歸,梯度下降的想法),如果你不熟悉這些想法,我們建議你去這裏機器學習課程,並先完成第II,III,IV章(到邏輯回歸)。此外這關於這套教程的源代碼在github上面已經有python版本了 UFLDL Tutorial Code
《Deep Learning for Natural Language Processing and Related Applications》
介紹:這份文檔來自微軟研究院,精髓很多。如果需要完全理解,需要一定的機器學習基礎。不過有些地方會讓人眼前一亮,毛塞頓開。
Understanding Convolutions
介紹:這是一篇介紹圖像卷積運算的文章,講的已經算比較詳細的了
《Machine Learning Summer School》
介紹:每天請一個大牛來講座,主要涉及機器學習,大數據分析,並行計算以及人腦研究
《Awesome Machine Learning》
介紹:一個超級完整的機器學習開源庫總結,如果你認為這個碉堡了,那後面這個列表會更讓你驚訝:【Awesome Awesomeness】,國內已經有熱心的朋友進行了翻譯中文介紹,機器學習數據挖掘免費電子書
斯坦福《自然語言處理》課程視頻
介紹:ACL候任主席、斯坦福大學計算機系Chris Manning教授的《自然語言處理》課程所有視頻已經可以在斯坦福公開課網站上觀看了(如Chrome不行,可用IE觀看) 作業與測驗也可以下載。
《Deep Learning and Shallow Learning》
介紹:對比 Deep Learning 和 Shallow Learning 的好文,來著浙大畢業、MIT 讀博的 Chiyuan Zhang 的博客。
《Recommending music on Spotify with deep learning》
介紹:利用卷積神經網絡做音樂推薦。
《Neural Networks and Deep Learning》
介紹:神經網絡的免費在線書,已經寫了三章了,還有對應的開源代碼,愛好者的福音。
《Java Machine Learning》
介紹:Java機器學習相關平臺和開源的機器學習庫,按照大數據、NLP、計算機視覺和Deep Learning分類進行了整理。看起來挺全的,Java愛好者值得收藏。
《Machine Learning Theory: An Introductory Primer》
介紹:機器學習最基本的入門文章,適合零基礎者
《機器學習常見算法分類匯總》
介紹:機器學習的算法很多。很多時候困惑人們都是,很多算法是一類算法,而有些算法又是從其他算法中延伸出來的。這裏,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是算法的類似性。
《機器學習經典論文/survey合集》
介紹:看題目你已經知道了是什麽內容,沒錯。裏面有很多經典的機器學習論文值得仔細與反復的閱讀。
《機器學習視頻庫》
介紹:視頻由加州理工學院(Caltech)出品。需要英語底子。
機器學習經典書籍
介紹:總結了機器學習的經典書籍,包括數學基礎和算法理論的書籍,可做為入門參考書單。
16 Free eBooks On Machine Learning
介紹:16本機器學習的電子書,可以下載下來在pad,手機上面任意時刻去閱讀。不多我建議你看完一本再下載一本。
《A Large set of Machine Learning Resources for Beginners to Mavens》
介紹:標題很大,從新手到專家。不過看完上面所有資料。肯定是專家了
機器學習最佳入門學習資料匯總
介紹:入門的書真的很多,而且我已經幫你找齊了。
Sibyl
介紹:Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視頻推薦。
《Deep Learning》
介紹:Yoshua Bengio, Ian Goodfellow, Aaron Courville著
《Neural Network & Text Mining》
介紹:關於(Deep) Neural Networks在 NLP 和 Text Mining 方面一些paper的總結
《前景目標檢測1(總結)》
介紹:計算機視覺入門之前景目標檢測1(總結)
《行人檢測》
介紹:計算機視覺入門之行人檢測
《Deep Learning – important resources for learning and understanding》
介紹:Important resources for learning and understanding . Is awesome
《Machine Learning Theory: An Introductory Primer》
介紹:這又是一篇機器學習初學者的入門文章。值得一讀
《Neural Networks and Deep Learning》
介紹:在線Neural Networks and Deep Learning電子書
《Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜》
介紹:python的17個關於機器學習的工具
《分布式機器學習的故事》
介紹:作者王益目前是騰訊廣告算法總監,王益博士畢業後在google任研究。這篇文章王益博士7年來從谷歌到騰訊對於分布機器學習的所見所聞。值得細讀
《機器學習提升之道(Level-Up Your Machine Learning)》
介紹:把機器學習提升的級別分為0~4級,每級需要學習的教材和掌握的知識。這樣,給機器學習者提供一個上進的路線圖,以免走彎路。另外,整個網站都是關於機器學習的,資源很豐富。
Machine Learning Surveys
介紹:機器學習各個方向綜述的網站
Deep Learning Reading list
介紹:深度學習閱資源列表
《Deep Learning: Methods and Applications》
介紹:這是一本來自微的研究員 li Peng和Dong Yu所著的關於深度學習的方法和應用的電子書
《Machine Learning Summer School 2014》
介紹:2014年七月CMU舉辦的機器學習夏季課剛剛結束 有近50小時的視頻、十多個PDF版幻燈片,覆蓋 深度學習,貝葉斯,分布式機器學習,伸縮性 等熱點話題。所有13名講師都是牛人:包括大牛Tom Mitchell (他的[機器學習]是名校的常用教材),還有CMU李沐 .(1080P高清喲)
《Sibyl: 來自Google的大規模機器學習系統》
介紹:在今年的IEEE/IFIP可靠系統和網絡(DSN)國際會議上,Google軟件工程師Tushar Chandra做了一個關於Sibyl系統的主題演講。 Sibyl是一個監督式機器學習系統,用來解決預測方面的問題,比如YouTube的視頻推薦。詳情請閱讀google sibyl
《Building a deeper understanding of images》
介紹:谷歌研究院的Christian Szegedy在谷歌研究院的博客上簡要地介紹了他們今年參加ImageNet取得好成績的GoogLeNet系統.是關於圖像處理的。
《Bayesian network 與python概率編程實戰入門》
介紹:貝葉斯學習。如果不是很清可看看概率編程語言與貝葉斯方法實踐
《AMA: Michael I Jordan》
介紹:網友問伯克利機器學習大牛、美國雙料院士Michael I. Jordan:”如果你有10億美金,你怎麽花?Jordan: “我會用這10億美金建造一個NASA級別的自然語言處理研究項目。”
《機器學習&數據挖掘筆記_16(常見面試之機器學習算法思想簡單梳理)》
介紹:常見面試之機器學習算法思想簡單梳理,此外作者還有一些其他的機器學習與數據挖掘文章和深度學習文章,不僅是理論還有源碼。
《文本與數據挖掘視頻匯總》
介紹:Videolectures上最受歡迎的25個文本與數據挖掘視頻匯總
《怎麽選擇深度學習的GPUs》
介紹:在Kaggle上經常取得不錯成績的Tim Dettmers介紹了他自己是怎麽選擇深度學習的GPUs, 以及個人如何構建深度學習的GPU集群:
《對話機器學習大神Michael Jordan:深度模型》
介紹:對話機器學習大神Michael Jordan
《Deep Learning 教程翻譯》
介紹:是Stanford 教授 Andrew Ng 的 Deep Learning 教程,國內的機器學習愛好者很熱心的把這個教程翻譯成了中文。如果你英語不好,可以看看這個
《Deep Learning 101》
介紹:因為近兩年來,深度學習在媒體界被炒作很厲害(就像大數據)。其實很多人都還不知道什麽是深度學習。這篇文章由淺入深。告訴你深度學究竟是什麽!
《UFLDL Tutorial》
介紹:這是斯坦福大學做的一免費課程(很勉強),這個可以給你在深度學習的路上給你一個學習的思路。裏面提到了一些基本的算法。而且告訴你如何去應用到實際環境中。中文版
《Toronto Deep Learning Demos》
介紹:這是多倫多大學做的一個深度學習用來識別圖片標簽/圖轉文字的demo。是一個實際應用案例。有源碼
《Deep learning from the bottom up》
介紹:機器學習模型,閱讀這個內容需要有一定的基礎。
《R工具包的分類匯總》
介紹: (CRAN Task Views, 34種常見任務,每個任務又各自分類列舉若幹常用相關工具包) 例如: 機器學習,自然語言處理,時間序列分析,空間信息分析,多重變量分析,計量經濟學,心理統計學,社會學統計,化學計量學,環境科學,藥物代謝動力學 等
《機器學習常見算法分類匯總》
介紹: 機器學習無疑是當前數據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的算法。本文為您總結一下常見的機器學習算法,以供您在工作和學習中參考.
《Deep Learning(深度學習)學習筆記整理系列》
介紹: 很多幹貨,而且作者還總結了好幾個系列。另外還作者還了一個文章導航.非常的感謝作者總結。
《Tutorials Session A - Deep Learning for Computer Vision》
介紹:傳送理由:Rob Fergus的用深度學習做計算機是覺的NIPS 2013教程。有mp4, mp3, pdf各種下載他是紐約大學教授,目前也在Facebook工作,他2014年的8篇論文
《FudanNLP》
介紹:FudanNLP,這是一個復旦大學計算機學院開發的開源中文自然語言處理(NLP)工具包 Fudan NLP裏包含中文分詞、關鍵詞抽取、命名實體識別、詞性標註、時間詞抽取、語法分析等功能,對搜索引擎 文本分析等極為有價值。
《Open Sourcing ml-ease》
介紹:LinkedIn 開源的機器學習工具包,支持單機, Hadoop cluster,和 Spark cluster 重點是 logistic regression 算法
《機器學習周刊》
介紹:對於英語不好,但又很想學習機器學習的朋友。是一個大的福利。機器學習周刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、數據挖掘、並行系統、圖像識別、人工智能、機器人等等。謝謝作者
《線性代數》
介紹:《線性代數》是《機器學習》的重要數學先導課程。其實《線代》這門課講得淺顯易懂特別不容易,如果一上來就講逆序數及羅列行列式性質,很容易讓學生失去學習的興趣。我個人推薦的最佳《線性代數》課程是麻省理工Gilbert Strang教授的課程。 課程主頁
《Big-data》
介紹:大數據數據處理資源、工具不完備列表,從框架、分布式編程、分布式文件系統、鍵值數據模型、圖數據模型、數據可視化、列存儲、機器學習等。很贊的資源匯總。
《machine learning for smart dummies》
介紹:雅虎邀請了一名來自本古裏安大學的訪問學者,制作了一套關於機器學習的系列視頻課程。本課程共分為7期,詳細講解了有關SVM, boosting, nearest neighbors, decision trees 等常規機器學習算法的理論基礎知識。
《Entanglement-Based Quantum Machine Learning》
介紹:應對大數據時代,量子機器學習的第一個實驗paper下載
《How a Math Genius Hacked OkCupid to Find True Love》
介紹:Wired雜誌報道了UCLA數學博士Chris McKinlay (圖1)通過大數據手段+機器學習方法破解婚戀網站配對算法找到真愛的故事,通過Python腳本控制著12個賬號,下載了婚戀網站2萬女用戶的600萬問題答案,對他們進行了統計抽樣及聚類分析(圖2,3),最後終於收獲了真愛。科技改變命運!
《Underactuated Robotics》
介紹:MIT的Underactuated Robotics於 2014年10月1日開課,該課屬於MIT研究生級別的課程,對機器人和非線性動力系統感興趣的朋友不妨可以挑戰一下這門課程!
《mllib實踐經驗(1)》
介紹:mllib實踐經驗分享
《Google Turns To Deep Learning Classification To Fight Web Spam》
介紹:Google用Deep Learning做的antispam(反垃圾郵件)
NLP常用信息資源
介紹:NLP常用信息資源
《機器學習速查表》
介紹:機器學習速查表
《Best Papers vs. Top Cited Papers in Computer Science》
介紹:從1996年開始在計算機科學的論文中被引用次數最多的論文
《InfiniTAM: 基於深度圖像的體數據集成框架》
介紹:把今年的一個ACM Trans. on Graphics (TOG)論文中的代碼整理為一個開源的算法框架,共享出來了。歡迎大家使用。可以實時的采集3D數據、重建出三維模型。Online learning,GPU Random forest,GPU CRF也會後續公開。
《Hacker’s guide to Neural Networks》
介紹:【神經網絡黑客指南】現在,最火莫過於深度學習(Deep Learning),怎樣更好學習它?可以讓你在瀏覽器中,跑起深度學習效果的超酷開源項目convnetjs作者karpathy告訴你,最佳技巧是,當你開始寫代碼,一切將變得清晰。他剛發布了一本圖書,不斷在線更新
《Building a Production Machine Learning Infrastructure》
介紹:前Google廣告系統工程師Josh Wills 講述工業界和學術界機器學習的異同,大實話
《Deep Learning Sentiment Analysis for Movie Reviews using Neo4j》
介紹:使用Neo4j做電影評論的情感分析。
《DeepLearning.University – An Annotated Deep Learning Bibliography》
介紹:不僅是資料,而且還對有些資料做了註釋。
《A primer on deeping learning》
介紹:深度學習入門的初級讀本
《Machine learning is teaching us the secret to teaching 》
介紹:機器學習教會了我們什麽?
《scikit-learn:用於機器學習的Python模塊
介紹:scikit-learn是在SciPy基礎上構建的用於機器學習的Python模塊。
《對話機器學習大神Michael Jordan:解析領域中各類模型》
介紹:喬丹教授(Michael I. Jordan)教授是機器學習領域神經網絡的大牛,他對深度學習、神經網絡有著很濃厚的興趣。因此,很多提問的問題中包含了機器學習領域的各類模型,喬丹教授對此一一做了解釋和展望。
《A*搜索算法的可視化短教程》
介紹:A*搜索是人工智能基本算法,用於高效地搜索圖中兩點的最佳路徑, 核心是 g(n)+h(n): g(n)是從起點到頂點n的實際代價,h(n)是頂點n到目標頂點的估算代價。合集
《基於雲的自然語言處理開源項目FudanNLP》
介紹:本項目利用了Microsoft Azure,可以在幾分種內完成NLP on Azure Website的部署,立即開始對FNLP各種特性的試用,或者以REST API的形式調用FNLP的語言分析功能
《吳立德《概率主題模型&數據科學基礎》》
介紹:現任復旦大學首席教授、計算機軟件博士生導師。計算機科學研究所副所長.內部課程
機器學習入門資源不完全匯總
介紹:好東西的幹貨真的很多
收集從2014年開始深度學習文獻
介紹:從硬件、圖像到健康、生物、大數據、生物信息再到量子計算等,Amund Tveit等維護了一個DeepLearning.University小項目:收集從2014年開始深度學習文獻,相信可以作為深度學習的起點,github
EMNLP上兩篇關於股票趨勢的應用論文
介紹:EMNLP上兩篇關於stock trend用到了deep model組織特征; Exploiting Social Relations and Sentiment for Stock Prediction用到了stock network。
《Bengio組(蒙特利爾大學LISA組)深度學習教程》
介紹:作者是深度學習一線大牛Bengio組寫的教程,算法深入顯出,還有實現代碼,一步步展開。
《學習算法的Neural Turing Machine》
介紹:許多傳統的機器學習任務都是在學習function,不過谷歌目前有開始學習算法的趨勢。谷歌另外的這篇學習Python程序的Learning to Execute也有相似之處
《Learning to Rank for Information Retrieval and Natural Language Processing》
介紹:作者是華為技術有限公司,諾亞方舟實驗室,首席科學家的李航博士寫的關於信息檢索與自然語言處理的文章
《Rumor has it: Identifying Misinformation in Microblogs》
介紹:利用機用器學習在謠言的判別上的應用,此外還有兩個。一個是識別垃圾與虛假信息的paper.還有一個是網絡輿情及其分析技術
R機器學習實踐
介紹:該課程是網易公開課的收費課程,不貴,超級便宜。主要適合於對利用R語言進行機器學習,數據挖掘感興趣的人。
《大數據分析:機器學習算法實現的演化》
介紹:本章中作者總結了三代機器學習算法實現的演化:第一代非分布式的, 第二代工具如Mahout和Rapidminer實現基於Hadoop的擴展,第三代如Spark和Storm實現了實時和叠代數據處理。BIG DATA ANALYTICS BEYOND HADOOP
《圖像處理,分析與機器視覺》
介紹:講計算機視覺的四部奇書(應該叫經典吧)之一,另外三本是Hartley的《多圖幾何》、Gonzalez的《數字圖像處理》、Rafael C.Gonzalez / Richard E.Woods的《數字圖像處理》
《LinkedIn最新的推薦系統文章Browsemaps》
介紹:裏面基本沒涉及到具體算法,但作者介紹了CF在LinkedIn的很多應用,以及他們在做推薦過程中獲得的一些經驗。最後一條經驗是應該監控log數據的質量,因為推薦的質量很依賴數據的質量!
《初學者如何查閱自然語言處理(NLP)領域學術資料》
介紹:初學者如何查閱自然語言處理(NLP)領域學術資料
《樹莓派的人臉識別教程》
介紹:用樹莓派和相機模塊進行人臉識別
《利用深度學習與大數據構建對話系統》
介紹:如何利用深度學習與大數據構建對話系統
《經典論文Leo Breiman:Statistical Modeling: The Two Cultures》
介紹:Francis Bach合作的有關稀疏建模的新綜述(書):Sparse Modeling for Image and Vision Processing,內容涉及Sparsity, Dictionary Learning, PCA, Matrix Factorization等理論,以及在圖像和視覺上的應用,而且第一部分關於Why does the l1-norm induce sparsity的解釋也很不錯。
《Reproducing Kernel Hilbert Space》
介紹:RKHS是機器學習中重要的概念,其在large margin分類器上的應用也是廣為熟知的。如果沒有較好的數學基礎,直接理解RKHS可能會不易。本文從基本運算空間講到Banach和Hilbert空間,深入淺出,一共才12頁。
《Hacker’s guide to Neural Networks》
介紹:許多同學對於機器學習及深度學習的困惑在於,數學方面已經大致理解了,但是動起手來卻不知道如何下手寫代碼。斯坦福深度學習博士Andrej Karpathy寫了一篇實戰版本的深度學習及機器學習教程,手把手教你用Javascript寫神經網絡和SVM.
《【語料庫】語料庫資源匯總》
介紹:【語料庫】語料庫資源匯總
《機器學習算法之旅》
介紹:本文會過一遍最流行的機器學習算法,大致了解哪些方法可用,很有幫助。
《Reproducible Research in Computational Science》
介紹:這個裏面有很多關於機器學習、信號處理、計算機視覺、深入學習、神經網絡等領域的大量源代碼(或可執行代碼)及相關論文。科研寫論文的好資源
NYU 2014年的深度學習課程資料
介紹:NYU 2014年的深度學習課程資料,有視頻
《計算機視覺數據集不完全匯總》
介紹:計算機視覺數據集不完全匯總
《Machine Learning Open Source Software》
介紹:機器學習開源軟件
《LIBSVM》
介紹:A Library for Support Vector Machines
《100 Best GitHub: Deep Learning》
介紹:github上面100個非常棒的項目
《加州大學歐文分校(UCI)機器學習數據集倉庫》
介紹:當前加州大學歐文分校為機器學習社區維護著306個數據集。查詢數據集
Andrej Karpathy個人主頁
介紹:Andrej Karpathy 是斯坦福大學Li Fei-Fei的博士生,使用機器學習在圖像、視頻語義分析領域取得了科研和工程上的突破,發的文章不多,但每個都很紮實,在每一個問題上都做到了state-of-art.
《Andrej Karpathy的深度強化學習演示》
介紹:Andrej Karpathy的深度強化學習演示,論文在這裏
《CIKM數據挖掘競賽奪冠算法-陳運文》
介紹:CIKM Cup(或者稱為CIKM Competition)是ACM CIKM舉辦的國際數據挖掘競賽的名稱。
Geoffrey E. Hinton
介紹:傑弗裏·埃弗裏斯特·辛頓 FRS是一位英國出生的計算機學家和心理學家,以其在神經網絡方面的貢獻聞名。辛頓是反向傳播算法和對比散度算法的發明人之一,也是深度學習的積極推動者.
《自然語言處理的深度學習理論與實際》
介紹:微軟研究院深度學習技術中心在CIKM2014 上關於《自然語言處理的深度學習理論與實際》教學講座的幻燈片
《用大數據和機器學習做股票價格預測》
介紹: 本文基於<支持向量機的高頻限價訂單的動態建模>采用了 Apache Spark和Spark MLLib從紐約股票交易所的訂單日誌數據構建價格運動預測模型。(股票有風險,投資謹慎)GitHub源代碼托管地址.
《關於機器學習的若幹理論問題》
介紹:徐宗本 院士將於熱愛機器學習的小夥伴一起探討有關於機器學習的幾個理論性問題,並給出一些有意義的結論。最後通過一些實例來說明這些理論問題的物理意義和實際應用價值。
《深度學習在自然語言處理的應用》
介紹:作者還著有《這就是搜索引擎:核心技術詳解》一書,主要是介紹應用層的東西
《人臉識別必讀的N篇文章》
介紹:人臉識別必讀文章推薦
《推薦系統經典論文文獻及業界應用》
介紹:推薦系統經典論文文獻
《統計機器學習》
介紹:統計學習是關於計算機基於數據構建的概率統計模型並運用模型對數據進行預測和分析的一門科學,統計學習也成為統計機器學習。課程來自上海交通大學
《機器學習導論》
介紹:機器學習的目標是對計算機編程,以便使用樣本數據或以往的經驗來解決給定的問題.
《機器學習經典算法詳解及Python實現–基於SMO的SVM分類器》
介紹:此外作者還有一篇元算法、AdaBoost python實現文章
《Numerical Optimization: Understanding L-BFGS》
介紹:加州伯克利大學博士Aria Haghighi寫了一篇超贊的數值優化博文,從牛頓法講到擬牛頓法,再講到BFGS以及L-BFGS, 圖文並茂,還有偽代碼。強烈推薦。
《R language for programmers》
介紹:R語言程序員私人定制版
《谷歌地圖解密:大數據與機器學習的結合》
介紹:谷歌地圖解密
《空間數據挖掘常用方法》
介紹:空間數據挖掘常用方法
《Use Google’s Word2Vec for movie reviews》
介紹:Kaggle新比賽 ”When bag of words meets bags of popcorn“ aka ”邊學邊用word2vec和deep learning做NLP“ 裏面全套教程教一步一步用python和gensim包的word2vec模型,並在實際比賽裏面比調參數和清數據。 如果已裝過gensim不要忘升級
《PyNLPIR》
介紹:PyNLPIR提供了NLPIR/ICTCLAS漢語分詞的Python接口,此外Zhon提供了常用漢字常量,如CJK字符和偏旁,中文標點,拼音,和漢字正則表達式(如找到文本中的繁體字)
《深度卷積神經網絡下圍棋》
介紹:這文章說把最近模型識別上的突破應用到圍棋軟件上,打16萬張職業棋譜訓練模型識別功能。想法不錯。訓練後目前能做到不用計算,只看棋盤就給出下一步,大約10級棋力。但這篇文章太過樂觀,說什麽人類的最後一塊堡壘馬上就要跨掉了。話說得太早。不過,如果與別的軟件結合應該還有潛力可挖。@萬精油墨綠
《NIPS審稿實驗》
介紹:UT Austin教授Eric Price關於今年NIPS審稿實驗的詳細分析,他表示,根據這次實驗的結果,如果今年NIPS重新審稿的話,會有一半的論文被拒。
《2014年最佳的大數據,數據科學文章》
介紹:KDNuggets分別總結了2014年14個閱讀最多以及分享最多的文章。我們從中可以看到多個主題——深度學習,數據科學家職業,教育和薪酬,學習數據科學的工具比如R和Python以及大眾投票的最受歡迎的數據科學和數據挖掘語言
《機器學習經典算法詳解及Python實現–線性回歸(Linear Regression)算法》
介紹:Python實現線性回歸,作者還有其他很棒的文章推薦可以看看
《2014中國大數據技術大會33位核心專家演講PDF》
介紹:2014中國大數據技術大會33位核心專家演講PDF下載
《使用RNN和Paragraph Vector做情感分析》
介紹:這是T. Mikolov & Y. Bengio最新論文Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ,使用RNN和PV在情感分析效果不錯,項目代碼公布在github(目前是空的)。這意味著Paragraph Vector終於揭開面紗了嘛。
《NLPIR/ICTCLAS2015分詞系統大會上的技術演講 》
介紹:NLPIR/ICTCLAS2015分詞系統發布與用戶交流大會上的演講,請更多朋友檢閱新版分詞吧。
《Machine Learning is Fun!》
介紹:Convex Neural Networks 解決維數災難
《CNN的反向求導及練習》
介紹:介紹CNN參數在使用bp算法時該怎麽訓練,畢竟CNN中有卷積層和下采樣層,雖然和MLP的bp算法本質上相同,但形式上還是有些區別的,很顯然在完成CNN反向傳播前了解bp算法是必須的。此外作者也做了一個資源集:機器學習,深度學習,視覺,數學等
《正則表達式優化成Trie樹 》
介紹:如果要在一篇文章中匹配十萬個關鍵詞怎麽辦?Aho-Corasick算法利用添加了返回邊的Trie樹,能夠在線性時間內完成匹配。 但如果匹配十萬個正則表達式呢 ? 這時候可以用到把多個正則優化成Trie樹的方法,如日本人寫的Regexp::Trie
《Deep learning Reading List》
介紹:深度學習閱讀清單
Caffe
介紹:Caffe是一個開源的深度學習框架,作者目前在google工作,作者主頁Yangqing Jia (賈揚清)
《GoogLeNet深度學習模型的Caffe復現》
介紹:2014 ImageNet冠軍GoogLeNet深度學習模型的Caffe復現模型,GoogleNet論文.
《LambdaNet,Haskell實現的開源人工神經網絡庫》
介紹:LambdaNetLambdaNet是由Haskell實現的一個開源的人工神經網絡庫,它抽象了網絡創建、訓練並使用了高階函數。該庫還提供了一組預定義函數,用戶可以采取多種方式組合這些函數來操作現實世界數據。
《百度余凱&張潼機器學習視頻》
介紹:如果你從事互聯網搜索,在線廣告,用戶行為分析,圖像識別,自然語言理解,或者生物信息學,智能機器人,金融預測,那麽這門核心課程你必須深入了解。
楊強在TEDxNanjing談智能的起源
介紹:”人工智能研究分許多流派。其中之一以IBM為代表,認為只要有高性能計算就可得到智能,他們的‘深藍’擊敗了世界象棋冠軍;另一流派認為智能來自動物本能;還有個很強的流派認為只要找來專家,把他們的思維用邏輯一條條寫下,放到計算機裏就行……” 楊強在TEDxNanjing談智能的起源
《深度RNN/LSTM用於結構化學習 0)序列標註Connectionist Temporal ClassificationICML06》
介紹:1)機器翻譯Sequence to Sequence NIPS14 2)成分句法GRAMMAR AS FOREIGN LANGUAGE
《Deep Learning實戰之word2vec》
介紹:網易有道的三位工程師寫的word2vec的解析文檔,從基本的詞向量/統計語言模型->NNLM->Log-Linear/Log-Bilinear->層次化Log-Bilinear,到CBOW和Skip-gram模型,再到word2vec的各種tricks,公式推導與代碼,基本上是網上關於word2vec資料的大合集,對word2vec感興趣的朋友可以看看
《Machine learning open source software》
介紹:機器學習開源軟件,收錄了各種機器學習的各種編程語言學術與商業的開源軟件.與此類似的還有很多例如:DMOZ - Computers: Artificial Intelligence: Machine Learning: Software, LIBSVM – A Library for Support Vector Machines, Weka 3: Data Mining Software in Java, scikit-learn:Machine Learning in Python, Natural Language Toolkit:NLTK, MAchine Learning for LanguagE Toolkit, Data Mining - Fruitful and Fun, Open Source Computer Vision Library
《機器學習入門者學習指南》
介紹:作者是計算機研二(寫文章的時候,現在是2015年了應該快要畢業了),專業方向自然語言處理.這是一點他的經驗之談.對於入門的朋友或許會有幫助
《A Tour of Machine Learning Algorithms》
介紹:這是一篇關於機器學習算法分類的文章,非常好
2014年的《機器學習日報》大合集
介紹:機器學習日報裏面推薦很多內容,在這裏有一部分的優秀內容就是來自機器學習日報.
《Image classification with deep learning常用模型》
介紹:這是一篇關於圖像分類在深度學習中的文章
《自動語音識別:深度學習方法》
介紹:作者與Bengio的兄弟Samy 09年合編《自動語音識別:核方法》 3)李開復1989年《自動語音識別》專著,其博導、94年圖靈獎得主Raj Reddy作序
《NLP中的中文分詞技術》
介紹: 作者是360電商技術組成員,這是一篇NLP在中文分詞中的應用
《Using convolutional neural nets to detect facial keypoints tutorial》
介紹: 使用deep learning的人臉關鍵點檢測,此外還有一篇AWS部署教程
《書籍推薦:Advanced Structured Prediction》
介紹: 由Sebastian Nowozin等人編纂MIT出版的新書《Advanced Structured Prediction》,匯集了結構化預測領域諸多牛文,涉及CV、NLP等領域,值得一讀。網上公開的幾章草稿:一,二,三,四,五
《An Introduction to Matrix Concentration Inequalities》
介紹: Tropp把數學家用高深裝逼的數學語言寫的矩陣概率不等式用初等的方法寫出來,是非常好的手冊,領域內的paper各種證明都在用裏面的結果。雖說是初等的,但還是非常的難
《The free big data sources you should know》
介紹: 不容錯過的免費大數據集,有些已經是耳熟能詳,有些可能還是第一次聽說,內容跨越文本、數據、多媒體等,讓他們伴你開始數據科學之旅吧,具體包括:Data.gov、US Census Bureau、European Union Open Data Portal、Data.gov.uk等
《A Brief Overview of Deep Learning》
介紹: 谷歌科學家、Hinton親傳弟子Ilya Sutskever的深度學習綜述及實際建議
《A Deep Dive into Recurrent Neural Nets》
介紹: 非常好的討論遞歸神經網絡的文章,覆蓋了RNN的概念、原理、訓練及優化等各個方面內容,強烈推薦!本文作者Nikhil Buduma還有一篇Deep Learning in a Nutshell值得推薦
機器學習:學習資源
介紹:裏面融合了很多的資源,例如競賽,在線課程,demo,數據整合等。有分類
《Statistical foundations of machine learning》
介紹:《機器學習的統計基礎》在線版,該手冊希望在理論與實踐之間找到平衡點,各主要內容都伴有實際例子及數據,書中的例子程序都是用R語言編寫的。
《A Deep Learning Tutorial: From Perceptrons to Deep Networks》
介紹:IVAN VASILEV寫的深度學習導引:從淺層感知機到深度網絡。高可讀
《Research priorities for robust and beneficial artificial intelligence》
介紹:魯棒及有益的人工智能優先研究計劃:一封公開信,目前已經有Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk等人簽署The Future of Life Institute (FLI).這封信的背景是最近霍金和Elon Musk提醒人們註意AI的潛在威脅。公開信的內容是AI科學家們站在造福社會的角度,展望人工智能的未來發展方向,提出開發AI系統的Verification,Validity, Security, Control四點要求,以及需要註意的社會問題。畢竟當前AI在經濟領域,法律,以及道德領域相關研究較少。其實還有一部美劇《疑犯追蹤》,介紹了AI的演進從一開始的自我學習,過濾,圖像識別,語音識別等判斷危險,到第四季的時候出現了機器通過學習成長之後想控制世界的狀態。說到這裏推薦收看。
《Metacademy》
介紹:裏面根據詞條提供了許多資源,還有相關知識結構,路線圖,用時長短等。號稱是”機器學習“搜索引擎
《FAIR open sources deep-learning modules for Torch》
介紹:Facebook人工智能研究院(FAIR)開源了一系列軟件庫,以幫助開發者建立更大、更快的深度學習模型。開放的軟件庫在 Facebook 被稱作模塊。用它們替代機器學習領域常用的開發環境 Torch 中的默認模塊,可以在更短的時間內訓練更大規模的神經網絡模型。
《淺析人臉檢測之Haar分類器方法》
介紹:本文雖然是寫於2012年,但是這篇文章完全是作者的經驗之作。
《如何成為一位數據科學家》
介紹:本文是對《機器學習實戰》作者Peter Harrington做的一個訪談。包含了書中部分的疑問解答和一點個人學習建議
《Deep learning from the bottom up》
介紹:非常好的深度學習概述,對幾種流行的深度學習模型都進行了介紹和討論
《Hands-On Data Science with R Text Mining》
介紹:主要是講述了利用R語言進行數據挖掘
《Understanding Convolutions》
介紹:幫你理解卷積神經網絡,講解很清晰,此外還有兩篇Conv Nets: A Modular Perspective,Groups & Group Convolutions. 作者的其他的關於神經網絡文章也很棒
《Introduction to Deep Learning Algorithms》
介紹:Deep Learning算法介紹,裏面介紹了06年3篇讓deep learning崛起的論文
《Learning Deep Architectures for AI》
介紹:一本學習人工智能的書籍,作者是Yoshua Bengio,相關國內報道
Geoffrey E. Hinton個人主頁
介紹:Geoffrey Hinton是Deep Learning的大牛,他的主頁放了一些介紹性文章和課件值得學習
《PROBABILITY THEORY: THE LOGIC OF SCIENCE》
介紹:概率論:數理邏輯書籍
《H2O》
介紹:一個用來快速的統計,機器學習並且對於數據量大的數學庫
《ICLR 2015會議的arXiv稿件合集》
介紹:在這裏你可以看到最近深度學習有什麽新動向。
《Introduction to Information Retrieval》
介紹:此書在信息檢索領域家喻戶曉, 除提供該書的免費電子版外,還提供一個IR資源列表,收錄了信息檢索、網絡信息檢索、搜索引擎實現等方面相關的圖書、研究中心、相關課程、子領域、會議、期刊等等,堪稱全集,值得收藏
《Information Geometry and its Applications to Machine Learning》
介紹:信息幾何學及其在機器學習中的應用
《Legal Analytics – Introduction to the Course》
介紹:課程《法律分析》介紹幻燈片。用機器學習解決法律相關分析和預測問題,相關的法律應用包括預測編碼、早期案例評估、案件整體情況的預測,定價和工作人員預測,司法行為預測等。法律領域大家可能都比較陌生,不妨了解下。
《文本上的算法》
介紹: 文中提到了最優,模型,最大熵等等理論,此外還有應用篇。推薦系統可以說是一本不錯的閱讀稿,關於模型還推薦一篇Generative Model 與 Discriminative Model
《NeuralTalk》
介紹: NeuralTalk is a Python+numpy project for learning Multimodal Recurrent Neural Networks that describe images with sentences.NeuralTalk是一個Python的從圖像生成自然語言描述的工具。它實現了Google (Vinyals等,卷積神經網絡CNN + 長短期記憶LSTM) 和斯坦福 (Karpathy and Fei-Fei, CNN + 遞歸神經網絡RNN)的算法。NeuralTalk自帶了一個訓練好的動物模型,你可以拿獅子大象的照片來試試看
《Deep Learning on Hadoop 2.0》
介紹:本文主要介紹了在Hadoop2.0上使用深度學習,文章來自paypal
《Practical recommendations for gradient-based training of deep architectures》
介紹:用基於梯度下降的方法訓練深度框架的實踐推薦指導,作者是Yoshua Bengio
《Machine Learning With Statistical And Causal Methods》
介紹: 用統計和因果方法做機器學習(視頻報告)
《Machine Learning Course 160’》
介紹: 一個講機器學習的Youtube視頻教程。160集。系統程度跟書可比擬。
《回歸(regression)、梯度下降(gradient descent)》
介紹: 機器學習中的數學,作者的研究方向是機器學習,並行計算如果你還想了解一點其他的可以看看他博客的其他文章
《美團推薦算法實踐》
介紹: 美團推薦算法實踐,從框架,應用,策略,查詢等分析
《Deep Learning for Answer Sentence Selection》
介紹: 深度學習用於問答系統答案句的選取
《Learning Semantic Representations Using Convolutional Neural Networks for Web Search》
介紹: CNN用於WEB搜索,深度學習在文本計算中的應用
《Awesome Public Datasets》
介紹: Awesome系列中的公開數據集
《Search Engine & Community》
介紹: 一個學術搜索引擎
《spaCy》
介紹: 用Python和Cython寫的工業級自然語言處理庫,號稱是速度最快的NLP庫,快的原因一是用Cython寫的,二是用了個很巧妙的hash技術,加速系統的瓶頸,NLP中稀松特征的存取
《Collaborative Filtering with Spark》
介紹: Fields是個數學研究中心,上面的這份ppt是來自Fields舉辦的活動中Russ Salakhutdinov帶來的《大規模機器學習》分享
《Topic modeling 的經典論文》
介紹: Topic modeling 的經典論文,標註了關鍵點
《Move Evaluation in Go Using Deep Convolutional Neural Networks》
介紹: 多倫多大學與Google合作的新論文,深度學習也可以用來下圍棋,據說能達到六段水平
《機器學習周刊第二期》
介紹: 新聞,paper,課程,book,system,CES,Roboot,此外還推薦一個深度學習入門與綜述資料
《Learning more like a human: 18 free eBooks on Machine Learning》
介紹: 18 free eBooks on Machine Learning
《Recommend :Hang Li Home》
介紹:Chief scientist of Noah’s Ark Lab of Huawei Technologies.He worked at the Research Laboratories of NEC Corporation during 1990 and 2001 and Microsoft Research Asia during 2001 and 2012. Paper
《DEEPLEARNING.UNIVERSITY – AN ANNOTATED DEEP LEARNING BIBLIOGRAPHY》
介紹: DEEPLEARNING.UNIVERSITY的論文庫已經收錄了963篇經過分類的深度學習論文了,很多經典論文都已經收錄
《MLMU.cz - Radim Řehůřek - Word2vec & friends (7.1.2015)》
介紹: Radim Řehůřek(Gensim開發者)在一次機器學習聚會上的報告,關於word2vec及其優化、應用和擴展,很實用.國內網盤
《Introducing streaming k-means in Spark 1.2》
介紹:很多公司都用機器學習來解決問題,提高用戶體驗。那麽怎麽可以讓機器學習更實時和有效呢?Spark MLlib 1.2裏面的Streaming K-means,由斑馬魚腦神經研究的Jeremy Freeman腦神經科學家編寫,最初是為了實時處理他們每半小時1TB的研究數據,現在發布給大家用了。
《LDA入門與Java實現》
介紹: 這是一篇面向工程師的LDA入門筆記,並且提供一份開箱即用Java實現。本文只記錄基本概念與原理,並不涉及公式推導。文中的LDA實現核心部分采用了arbylon的LdaGibbsSampler並力所能及地註解了,在搜狗分類語料庫上測試良好,開源在GitHub上。
《AMiner - Open Science Platform》
介紹: AMiner是一個學術搜索引擎,從學術網絡中挖掘深度知識、面向科技大數據的挖掘。收集近4000萬作者信息、8000萬論文信息、1億多引用關系、鏈接近8百萬知識點;支持專家搜索、機構排名、科研成果評價、會議排名。
《What are some interesting Word2Vec results?》
介紹: Quora上的主題,討論Word2Vec的有趣應用,Omer Levy提到了他在CoNLL2014最佳論文裏的分析結果和新方法,Daniel Hammack給出了找特異詞的小應用並提供了(Python)代碼
《機器學習公開課匯總》
介紹: 機器學習公開課匯總,雖然裏面的有些課程已經歸檔過了,但是還有個別的信息沒有。感謝課程圖譜的小編
《A First Course in Linear Algebra》
介紹: 【A First Course in Linear Algebra】Robert Beezer 有答案 有移動版、打印版 使用GNU自由文檔協議 引用了傑弗遜1813年的信
《libfacedetection》
介紹:libfacedetection是深圳大學開源的一個人臉圖像識別庫。包含正面和多視角人臉檢測兩個算法.優點:速度快(OpenCV haar+adaboost的2-3倍), 準確度高 (FDDB非公開類評測排名第二),能估計人臉角度。
《Inverting a Steady-State》
介紹:WSDM2015最佳論文 把馬爾可夫鏈理論用在了圖分析上面,比一般的propagation model更加深刻一些。通過全局的平穩分布去求解每個節點影響系數模型。假設合理(轉移受到相鄰的影響系數影響)。可以用來反求每個節點的影響系數
《機器學習入門書單》
介紹:機器學習入門書籍,具體介紹
《The Trouble with SVMs》
介紹: 非常棒的強調特征選擇對分類器重要性的文章。情感分類中,根據互信息對復雜高維特征降維再使用樸素貝葉斯分類器,取得了比SVM更理想的效果,訓練和分類時間也大大降低——更重要的是,不必花大量時間在學習和優化SVM上——特征也一樣no free lunch
《Rise of the Machines》
介紹:CMU的統計系和計算機系知名教授Larry Wasserman 在《機器崛起》,對比了統計和機器學習的差異
《實例詳解機器學習如何解決問題》
介紹:隨著大數據時代的到來,機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界,機器學習都是一個炙手可熱的方向,但是學術界和工業界對機器學習的研究各有側重,學術界側重於對機器學習理論的研究,工業界側重於如何用機器學習來解決實際問題。這篇文章是美團的實際環境中的實戰篇
《Gaussian Processes for Machine Learning》
介紹:面向機器學習的高斯過程,章節概要:回歸、分類、協方差函數、模型選擇與超參優化、高斯模型與其他模型關系、大數據集的逼近方法等,微盤下載
《FuzzyWuzzy: Fuzzy String Matching in Python》
介紹:Python下的文本模糊匹配庫,老庫新推,可計算串間ratio(簡單相似系數)、partial_ratio(局部相似系數)、token_sort_ratio(詞排序相似系數)、token_set_ratio(詞集合相似系數)等。Github
《Blocks》
介紹:Blocks是基於Theano的神經網絡搭建框架,集成相關函數、管道和算法,幫你更快地創建和管理NN模塊.
《Introduction to Machine Learning》
介紹:機器學習大神Alex Smola在CMU新一期的機器學習入門課程”Introduction to Machine Learning“近期剛剛開課,課程4K高清視頻同步到Youtube上,目前剛剛更新到 2.4 Exponential Families,課程視頻playlist, 感興趣的同學可以關註,非常適合入門.
《Collaborative Feature Learning from Social Media》
介紹:用社交用戶行為學習圖片的協同特征,可更好地表達圖片內容相似性。由於不依賴於人工標簽(標註),可用於大規模圖片處理,難在用戶行為數據的獲取和清洗;利用社會化特征的思路值得借鑒.
《Introducing practical and robust anomaly detection in a time series》
介紹:Twitter技術團隊對前段時間開源的時間序列異常檢測算法(S-H-ESD)R包的介紹,其中對異常的定義和分析很值得參考,文中也提到——異常是強針對性的,某個領域開發的異常檢測在其他領域直接用可不行.
《Empower Your Team to Deal with Data-Quality Issues》
介紹:聚焦數據質量問題的應對,數據質量對各種規模企業的性能和效率都至關重要,文中總結出(不限於)22種典型數據質量問題顯現的信號,以及典型的數據質量解決方案(清洗、去重、統一、匹配、權限清理等)
《中文分詞入門之資源》
介紹:中文分詞入門之資源.
《Deep Learning Summit, San Francisco, 2015》
介紹:15年舊金山深度學習峰會視頻集萃,國內雲盤
《Introduction to Conditional Random Fields》
介紹:很好的條件隨機場(CRF)介紹文章,作者的學習筆記
《A Fast and Accurate Dependency Parser using Neural Networks》
介紹: 來自Stanford,用神經網絡實現快速準確的依存關系解析器
《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》
介紹:做深度學習如何選擇GPU的建議
《Sparse Linear Models》
介紹: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的報告,講稀疏線性模型——面向“寬數據”(特征維數超過樣本數)的線性模型,13年同主題報告、講義.
《Awesome Computer Vision》
介紹: 分類整理的機器視覺相關資源列表,秉承Awesome系列風格,有質有量!作者的更新頻率也很頻繁
《Adam Szeidl》
介紹: social networks course
《Building and deploying large-scale machine learning pipelines》
介紹: 大規模機器學習流程的構建與部署.
《人臉識別開發包》
介紹: 人臉識別二次開發包,免費,可商用,有演示、範例、說明書.
《Understanding Natural Language with Deep Neural Networks Using Torch》
介紹: 采用Torch用深度學習網絡理解NLP,來自Facebook 人工智能的文章.
《The NLP Engine: A Universal Turing Machine for NLP》
介紹: 來自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy來刻畫NLP中各項任務的難度.
《TThe Probabilistic Relevance Framework: BM25 and Beyond》
介紹: 信息檢索排序模型BM25(Besting Matching)。1)從經典概率模型演變而來 2)捕捉了向量空間模型中三個影響索引項權重的因子:IDF逆文檔頻率;TF索引項頻率;文檔長度歸一化。3)並且含有集成學習的思想:組合了BM11和BM15兩個模型。4)作者是BM25的提出者和Okapi實現者Robertson.
《Introduction to ARMA Time Series Models – simplified》
介紹: 自回歸滑動平均(ARMA)時間序列的簡單介紹,ARMA是研究時間序列的重要方法,由自回歸模型(AR模型)與滑動平均模型(MA模型)為基礎“混合”構成.
《Encoding Source Language with Convolutional Neural Network for Machine Translation》
介紹: 把來自target的attention signal加入source encoding CNN的輸入,得到了比BBN的模型好的多neural network joint model
《Spices form the basis of food pairing in Indian cuisine》
介紹: 揭開印度菜的美味秘訣——通過對大量食譜原料關系的挖掘,發現印度菜美味的原因之一是其中的味道互相沖突,很有趣的文本挖掘研究
《HMM相關文章索引》
介紹: HMM相關文章
《Zipf’s and Heap’s law》
介紹: 1)詞頻與其降序排序的關系,最著名的是語言學家齊夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比關系. 曼德勃羅(Mandelbrot,1924- 2010)引入參數修正了對甚高頻和甚低頻詞的刻畫 2)Heaps’ law: 詞匯表與語料規模的平方根(這是一個參數,英語0.4-0.6)成正比
《I am Jürgen Schmidhuber, AMA》
介紹: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主題,有不少RNN和AI、ML的幹貨內容,關於開源&思想&方法&建議……耐心閱讀,相信你也會受益匪淺.
學術種子網站:AcademicTorrents
介紹: 成G上T的學術數據,HN近期熱議話題,主題涉及機器學習、NLP、SNA等。下載最簡單的方法,通過BT軟件,RSS訂閱各集合即可
《機器學習交互速查表》
介紹: Scikit-Learn官網提供,在原有的Cheat Sheet基礎上加上了Scikit-Learn相關文檔的鏈接,方便瀏覽
《A Full Hardware Guide to Deep Learning》
介紹: 深度學習的全面硬件指南,從GPU到RAM、CPU、SSD、PCIe
《行人檢測(Pedestrian Detection)資源》
介紹:Pedestrian Detection paper & data
《A specialized face-processing network consistent with the representational geometry of monkey face patches》
介紹: 【神經科學碰撞人工智能】在臉部識別上你我都是專家,即使細微的差別也能辨認。研究已證明人類和靈長類動物在面部加工上不同於其他物種,人類使用梭狀回面孔區(FFA)。Khaligh-Razavi等通過計算機模擬出人臉識別的FFA活動,堪稱神經科學與人工智能的完美結合。
《Neural Net in C++ Tutorial》
介紹: 神經網絡C++教程,本文介紹了用可調節梯度下降和可調節動量法設計和編碼經典BP神經網絡,網絡經過訓練可以做出驚人和美妙的東西出來。此外作者博客的其他文章也很不錯。
《How to Choose a Neural Network》
介紹:deeplearning4j官網提供的實際應用場景NN選擇參考表,列舉了一些典型問題建議使用的神經網絡
《Deep Learning (Python, C/C++, Java, Scala, Go)》
介紹:一個深度學習項目,提供了Python, C/C++, Java, Scala, Go多個版本的代碼
《Deep Learning Tutorials》
介紹:深度學習教程
《自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授》
介紹:自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授.
《FaceNet: A Unified Embedding for Face Recognition and Clustering》
介紹:Google對Facebook DeepFace的有力回擊—— FaceNet,在LFW(Labeled Faces in the Wild)上達到99.63%準確率(新紀錄),FaceNet embeddings可用於人臉識別、鑒別和聚類.
《MLlib中的Random Forests和Boosting》
介紹:本文來自Databricks公司網站的一篇博客文章,由Joseph Bradley和Manish Amde撰寫,文章主要介紹了Random Forests和Gradient-Boosted Trees(GBTs)算法和他們在MLlib中的分布式實現,以及展示一些簡單的例子並建議該從何處上手.中文版.
《Sum-Product Networks(SPN)》
介紹:華盛頓大學Pedro Domingos團隊的DNN,提供論文和實現代碼.
《Neural Network Dependency Parser》
介紹:基於神經網絡的自然語言依存關系解析器(已集成至Stanford CoreNLP),特點是超快、準確,目前可處理中英文語料,基於《A Fast and Accurate Dependency Parser Using Neural Networks》思路實現.
《神經網絡語言模型》
介紹:本文根據神經網絡的發展歷程,詳細講解神經網絡語言模型在各個階段的形式,其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要變形,總結的特別好.
《Classifying Spam Emails using Text and Readability Features》
介紹:經典問題的新研究:利用文本和可讀性特征分類垃圾郵件。
《BCI Challenge @ NER 2015》
介紹:Kaggle腦控計算機交互(BCI)競賽優勝方案源碼及文檔,包括完整的數據處理流程,是學習Python數據處理和Kaggle經典參賽框架的絕佳實例
《IPOL Journal · Image Processing On Line》
介紹:IPOL(在線圖像處理)是圖像處理和圖像分析的研究期刊,每篇文章都包含一個算法及相應的代碼、Demo和實驗文檔。文本和源碼是經過了同行評審的。IPOL是開放的科學和可重復的研究期刊。我一直想做點類似的工作,拉近產品和技術之間的距離.
《Machine learning classification over encrypted data》
介紹:出自MIT,研究加密數據高效分類問題.
《purine2》
介紹:新加坡LV實驗室的神經網絡並行框架Purine: A bi-graph based deep learning framework,支持構建各種並行的架構,在多機多卡,同步更新參數的情況下基本達到線性加速。12塊Titan 20小時可以完成Googlenet的訓練。
Machine Learning Resources
介紹:這是一個機器學習資源庫,雖然比較少.但蚊子再小也是肉.有突出部分.此外還有一個由zheng Rui整理的機器學習資源.
《Hands-on with machine learning》
介紹:Chase Davis在NICAR15上的主題報告材料,用Scikit-Learn做監督學習的入門例子.
《The Natural Language Processing Dictionary》
介紹:這是一本自然語言處理的詞典,從1998年開始到目前積累了成千上萬的專業詞語解釋,如果你是一位剛入門的朋友.可以借這本詞典讓自己成長更快.
《PageRank Approach to Ranking National Football Teams》
介紹:通過分析1930年至今的比賽數據,用PageRank計算世界杯參賽球隊排行榜.
《R Tutorial》
介紹:R語言教程,此外還推薦一個R語言教程An Introduction to R.
《Fast unfolding of communities in large networks》
介紹:經典老文,復雜網絡社區發現的高效算法,Gephi中的Community detection即基於此.
《synaptic.Js》
介紹: 支持node.js的JS神經網絡庫,可在客戶端瀏覽器中運行,支持LSTM等。Github
《Machine learning for package users with R (1): Decision Tree》
介紹: 決策樹
《Deep Learning, The Curse of Dimensionality, and Autoencoders》
介紹: 討論深度學習自動編碼器如何有效應對維數災難,中文翻譯
《Advanced Optimization and Randomized Methods》
介紹: CMU的優化與隨機方法課程,由A. Smola和S. Sra主講,優化理論是機器學習的基石,值得深入學習。國內雲(視頻)
《CS231n: Convolutional Neural Networks for Visual Recognition》
介紹: “面向視覺識別的CNN”課程設計報告集錦.近百篇,內容涉及圖像識別應用的各個方面
《Topic modeling with LDA: MLlib meets GraphX》
介紹:用Spark的MLlib+GraphX做大規模LDA主題抽取.
《Deep Learning for Multi-label Classification》
介紹: 基於深度學習的多標簽分類,用基於RBM的DBN解決多標簽分類(特征)問題
《Google DeepMind publications》
介紹: DeepMind論文集錦
《kaldi》
介紹: 一個開源語音識別工具包,它目前托管在sourceforge上面
《Data Journalism Handbook》
介紹: 免費電子書《數據新聞手冊》, 國內有熱心的朋友翻譯了中文版,大家也可以在線閱讀
《Data Mining Problems in Retail》
介紹: 零售領域的數據挖掘文章.
《Understanding Convolution in Deep Learning》
介紹: 深度學習卷積概念詳解,深入淺出.
《pandas: powerful Python data analysis toolkit》
介紹: 非常強大的Python的數據分析工具包.
《Text Analytics 2015》
介紹: 2015文本分析(商業)應用綜述.
《Deep Learning libraries and first experiments with Theano》
介紹: 深度學習框架、庫調研及Theano的初步測試體會報告.
《DEEP learning》
介紹: MIT的Yoshua Bengio等人講深度學習的新書,還未定稿,線上提供Draft chapters收集反饋,超贊!強烈推薦.
《simplebayes》
介紹: Python下開源可持久化樸素貝葉斯分類庫.
《Paracel》
介紹:Paracel is a distributed computational framework designed for machine learning problems, graph algorithms and scientific computing in C++.
《HanLP:Han Language processing》
介紹: 開源漢語言處理包.
《Simple Neural Network implementation in Ruby》
介紹: 使用Ruby實現簡單的神經網絡例子.
[《Hacker’s guide to Neural Networks》}(https://karpathy.github.io/neuralnets/)
介紹:神經網絡黑客入門.
《The Open-Source Data Science Masters》
介紹:好多數據科學家名人推薦,還有資料.
《Text Understanding from Scratch》
介紹:實現項目已經開源在github上面Crepe
《Improving Distributional Similarity with Lessons Learned from Word Embeddings》
介紹:作者發現,經過調參,傳統的方法也能和word2vec取得差不多的效果。另外,無論作者怎麽試,GloVe都比不過word2vec.
《CS224d: Deep Learning for Natural Language Processing》
介紹:Stanford深度學習與自然語言處理課程,Richard Socher主講.
《Math Essentials in Machine Learning》
介紹:機器學習中的重要數學概念.
《Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks》
介紹:用於改進語義表示的樹型LSTM遞歸神經網絡,句子級相關性判斷和情感分類效果很好.實現代碼.
《Statistical Machine Learning》
介紹:卡耐基梅隆Ryan Tibshirani和Larry Wasserman開設的機器學習課程,先修課程為機器學習(10-715)和中級統計學(36-705),聚焦統計理論和方法在機器學習領域應用.
《AM207: Monte Carlo Methods, Stochastic Optimization》
介紹:《哈佛大學蒙特卡洛方法與隨機優化課程》是哈佛應用數學研究生課程,由V Kaynig-Fittkau、P Protopapas主講,Python程序示例,對貝葉斯推理感興趣的朋友一定要看看,提供授課視頻及課上IPN講義.
《生物醫學的SPARK大數據應用》
介紹:生物醫學的SPARK大數據應用.並且伯克利開源了他們的big data genomics系統ADAM,其他的內容可以關註一下官方主頁.
《ACL Anthology》
介紹:對自然語言處理技術或者機器翻譯技術感興趣的親們,請在提出自己牛逼到無以倫比的idea(自動歸納翻譯規律、自動理解語境、自動識別語義等等)之前,請通過谷歌學術簡單搜一下,如果谷歌不可用,這個網址有這個領域幾大頂會的論文列表,切不可斷章取義,胡亂假設.
《Twitter Sentiment Detection via Ensemble Classification Using Averaged Confidence Scores》
介紹:論文+代碼:基於集成方法的Twitter情感分類,實現代碼.
《NIPS 2014 CIML workshop》
介紹:NIPS CiML 2014的PPT,NIPS是神經信息處理系統進展大會的英文簡稱.
《CS231n: Convolutional Neural Networks for Visual Recognition》
介紹:斯坦福的深度學習課程的Projects 每個人都要寫一個論文級別的報告 裏面有一些很有意思的應用 大家可以看看 .
《A Speed Comparison Between Flexible Linear Regression Alternatives in R》
介紹:R語言線性回歸多方案速度比較具體方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan’s optimizing()等.
《Back-to-Basics Weekend Reading - Machine Learning》
介紹:文中提到的三篇論文(機器學習那些事、無監督聚類綜述、監督分類綜述)都很經典,Domnigos的機器學習課也很精彩
《A Probabilistic Theory of Deep Learning》
介紹:萊斯大學(Rice University)的深度學習的概率理論.
《Nonsensical beer reviews via Markov chains》
介紹:基於馬爾可夫鏈自動生成啤酒評論的開源Twitter機器人, Github.
《Deep Learning for Natural Language Processing (without Magic)》
介紹:視頻+講義:深度學習用於自然語言處理教程(NAACL13).
《Introduction to Data Analysis using Machine Learning》
介紹:用機器學習做數據分析,David Taylor最近在McGill University研討會上的報告,還提供了一系列講機器學習方法的ipn,很有價值。GitHub。國內雲盤
《Beyond Short Snippets: Deep Networks for Video Classification》
介紹:基於CNN+LSTM的視頻分類, Google演示.
《How does Quora use machine learning in 2015?》
介紹:Quora怎麽用機器學習.
《Amazon Machine Learning – Make Data-Driven Decisions at Scale》
介紹:亞馬遜在機器學習上面的一些應用,代碼示例.
《Parallel Machine Learning with scikit-learn and IPython》
介紹:並行機器學習指南(基於scikit-learn和IPython). Notebook
《Intro to machine learning with scikit-learn》
介紹:DataSchool的機器學習基本概念教學.
《DeepCLn》
介紹:一個基於OpenGL實現的卷積神經網絡,支持Linux及Windows系.
《An Inside Look at the Components of a Recommendation Engine》
介紹:基於Mahout和Elasticsearch的推薦系統.
《Forecasting in Economics, Business, Finance and Beyond》
介紹:Francis X. Diebold的《(經濟|商業|金融等領域)預測方法.
《Time Series Econometrics - A Concise Course》
介紹:Francis X. Diebold的《時序計量經濟學》.
《A comparison of open source tools for sentiment analysis》
介紹:基於Yelp數據集的開源情感分析工具比較,評測覆蓋Naive Bayes、SentiWordNet、CoreNLP等 .
《Pattern Recognition And Machine Learning》
介紹:國內Pattern Recognition And Machine Learning讀書會資源匯總,各章pdf講稿,博客.
《Probabilistic Data Structures for Web Analytics and Data Mining》
介紹:用於Web分析和數據挖掘的概率數據結構.
《Machine learning in navigation devices: detect maneuvers using accelerometer and gyroscope》
介紹:機器學習在導航上面的應用.
《Neural Networks Demystified》
介紹:Neural Networks Demystified系列視頻,Stephen Welch制作,純手繪風格,淺顯易懂,國內雲盤.
《swirl + DataCamp》
介紹:{swirl}數據訓練營:R&數據科學在線交互教程.
《Learning to Read with Recurrent Neural Networks》
介紹:關於深度學習和RNN的討論Sequence to Sequence Learning with Neural Networks.
深度強化學習(Deep Reinforcement Learning)的資源
介紹:Deep Reinforcement Learning.
《Machine Learning with Scikit-Learn》
介紹:(PyCon2015)Scikit-Learn機器學習教程,Parallel Machine Learning with scikit-learn and IPython.
《PDNN》
介紹:PDNN: A Python Toolkit for Deep Learning.
《Introduction to Machine Learning》
介紹:15年春季學期CMU的機器學習課程,由Alex Smola主講,提供講義及授課視頻,很不錯.國內雲盤.
《Big Data Processing》
介紹:大數據處理課.內容覆蓋流處理、MapReduce、圖算法等.
《Spark MLlib: Making Practical Machine Learning Easy and Scalable》
介紹:用Spark MLlib實現易用可擴展的機器學習,國內雲盤.
《Picture: A Probabilistic Programming Language for Scene Perception》
介紹:以往上千行代碼概率編程(語言)實現只需50行.
《Beautiful plotting in R: A ggplot2 cheatsheet》
介紹:ggplot2速查小冊子,另外一個,此外還推薦《A new data processing workflow for R: dplyr, magrittr, tidyr, ggplot2》.
《Using Structured Events to Predict Stock Price Movement: An Empirical Investigation》
介紹:用結構化模型來預測實時股票行情.
《International Joint Conference on Artificial Intelligence Accepted paper》
介紹:國際人工智能聯合會議錄取論文列表,大部分論文可使用Google找到.
《Why GEMM is at the heart of deep learning》
介紹:一般矩陣乘法(GEMM)對深度學習的重要性.
《Distributed (Deep) Machine Learning Common》
介紹:A Community of awesome Distributed Machine Learning C++ projects.
《Reinforcement Learning: An Introduction》
介紹:免費電子書<強化學習介紹>,第一版(1998),第二版(2015草稿),相關課程資料, Reinforcement Learning.
《Free ebook: Microsoft Azure Essentials: Azure Machine Learning》
介紹:免費書:Azure ML使用精要.
《A Deep Learning Tutorial: From Perceptrons to Deep Networks》
介紹:A Deep Learning Tutorial: From Perceptrons to Deep Networks.
《A Brief Overview of Deep Learning》
介紹:中文版.
《Wormhole》
介紹:Portable, scalable and reliable distributed machine learning.
《convnet-benchmarks》
介紹:CNN開源實現橫向評測,參評框架包括Caffe 、Torch-7、CuDNN 、cudaconvnet2 、fbfft、Nervana Systems等,NervanaSys表現突出.
《This catalogue lists resources developed by faculty and students of the Language Technologies Institute.》
介紹:卡耐基梅隆大學計算機學院語言技術系的資源大全,包括大量的NLP開源軟件工具包,基礎數據集,論文集,數據挖掘教程,機器學習資源.
《Sentiment Analysis on Twitter》
介紹:Twitter情感分析工具SentiTweet,視頻+講義.
《Machine Learning Repository @ Wash U》
介紹:華盛頓大學的Machine Learning Paper Repository.
《Machine learning cheat sheet》
介紹:機器學習速查表.
《Spark summit east 2015 agenda》
介紹:最新的Spark summit會議資料.
《Learning Spark》
介紹:Ebook Learning Spark.
《Advanced Analytics with Spark, Early Release Edition》
介紹:Ebook Advanced Analytics with Spark, Early Release Edition.
國內機器學習算法及應用領域人物篇:唐傑
介紹:清華大學副教授,是圖挖掘方面的專家。他主持設計和實現的Arnetminer是國內領先的圖挖掘系統,該系統也是多個會議的支持商.
國內機器學習算法及應用領域人物篇:楊強
介紹:遷移學習的國際領軍人物.
國內機器學習算法及應用領域人物篇:周誌華
介紹:在半監督學習,multi-label學習和集成學習方面在國際上有一定的影響力.
國內機器學習算法及應用領域人物篇:王海峰
介紹:信息檢索,自然語言處理,機器翻譯方面的專家.
國內機器學習算法及應用領域人物篇:吳軍
介紹:吳軍博士是當前Google中日韓文搜索算法的主要設計者。在Google其間,他領導了許多研發項目,包括許多與中文相關的產品和自然語言處理的項目,他的新個人主頁.
《Cat Paper Collection》
介紹:喵星人相關論文集.
《How to Evaluate Machine Learning Models, Part 1: Orientation》
介紹:如何評價機器學習模型系列文章, How to Evaluate Machine Learning Models, Part 2a: Classification Metrics, How to Evaluate Machine Learning Models, Part 2b: Ranking and Regression Metrics.
《Building a new trends experience》
介紹:Twitter新trends的基本實現框架.
《Storm Blueprints: Patterns for Distributed Real-time Computation》
介紹:Storm手冊,中文翻譯.
《SmileMiner》
介紹:Java機器學習算法庫SmileMiner.
《機器翻譯學術論文寫作方法和技巧》
介紹:機器翻譯學術論文寫作方法和技巧,Simon Peyton Jones的How to write a good research paper同類視頻How to Write a Great Research Paper, How to paper talk.
《神經網絡訓練中的Tricks之高效BP(反向傳播算法)》
介紹:神經網絡訓練中的Tricks之高效BP,博主的其他博客也挺精彩的.
《我和NLP的故事》
介紹:作者是NLP方向的碩士,短短幾年內研究成果頗豐,推薦新入門的朋友閱讀.
《The h Index for Computer Science 》
介紹:UCLA的Jens Palsberg根據Google Scholar建立了一個計算機領域的H-index牛人列表,我們熟悉的各個領域的大牛絕大多數都在榜上,包括1位諾貝爾獎得主,35位圖靈獎得主,近百位美國工程院/科學院院士,300多位ACM Fellow,在這裏推薦的原因是大家可以在google通過搜索牛人的名字來獲取更多的資源,這份資料很寶貴.
《Structured Learning for Taxonomy Induction with Belief Propagation》
介紹:用大型語料庫學習概念的層次關系,如鳥是鸚鵡的上級,鸚鵡是虎皮鸚鵡的上級。創新性在於模型構造,用因子圖刻畫概念之間依存關系,因引入兄弟關系,圖有環,所以用有環擴散(loopy propagation)叠代計算邊際概率(marginal probability).
《Bayesian analysis》
介紹: 這是一款貝葉斯分析的商業軟件,官方寫的貝葉斯分析的手冊有250多頁,雖然R語言 已經有類似的項目,但畢竟可以增加一個可選項.