自然語言處理是機器學習當前最神秘,最紅火,最具難度,也最讓引人關注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機器翻譯,自動應答等各個領域有著前程無可限量的應用。可以試想一臺能理解自然語言,并且和人類能用語言純熟交流的機器,那還能叫機器么?文本挖掘(Text Mining)是數(shù)據(jù)挖掘以及自然語言處理技術衍生的一個分支,挖掘對象通常是非結構化的文本數(shù)據(jù),常見的文本挖掘對象包括網(wǎng)頁所產(chǎn)生的BBS留言、博客、微博、新聞跟貼與轉貼等。此外,擁有大型呼叫中心或郵件系統(tǒng)的企業(yè),call center或mail積攢下來的大量語言記錄也可以通過文本挖掘獲得眾多具有商業(yè)價值的知識。我們用計算機去處理文字,語音,理解語言,這些本來是高等生物人類才能做的事情,使到系統(tǒng)能產(chǎn)生“機器也具有人類同樣的智慧”的震驚效果,無需置疑肯定會給顧客和觀眾留下極其深刻的印象。
Python作為一門主流的編程語言,在自然語言的處理中也是有非常多的應用。那么就讓我們一起來學習怎么使用Python進行自然語言處理吧!? ???
第一部份:自然語言分析利器——Python入門
第二部份:自然語言分析工具包——NLTK入門。編程實戰(zhàn):NLTK包的安裝與常用方法介紹
第三部份:語料庫的獲取與詞頻分析。編程實戰(zhàn):詞條頻率分布圖的繪制
第四部份:原始文本資料的讀取與處理。編程實戰(zhàn):使用正則表達式實現(xiàn)英文分詞
第五部份:中文分詞的算法與實現(xiàn)。編程實戰(zhàn):結巴分詞器的使用
第六部份:詞條分類與詞條屬性。編程實戰(zhàn):中英文詞性標注
第七部份:文本挖掘之文本分類器。編程實戰(zhàn):新聞類別分類
第八部份:文本挖掘之文本聚類。編程實戰(zhàn):百度詞條聚類分析
第九部份:文本信息提取。編程實戰(zhàn):結構化數(shù)據(jù)提取系統(tǒng)
第十部份:句子語法分析。編程實戰(zhàn):自動語法樹構建系統(tǒng)
第十一部份:讓計算機讀懂我們——文本語義分析實現(xiàn)。編程實現(xiàn):智能問答系統(tǒng)
第十二部份:語言數(shù)據(jù)管理。編程實踐:語料庫的設計與創(chuàng)建 |