2017年7月13日 星期四

[Python]自然語言相關套件紀錄

自然語言處理 NLTK

這個庫的名字是 Natural Language Toolkit(自然語言工具)的縮寫。正如其名,它被用於由象徵性與統計性自然語言處理的一般任務。NLTK 旨在用於自然語言處理的教學與研究等的相關領域(語義學,認知人工智能科學,等等)並現在它的使用受到了很大的關注。
NLTK 在功能上允許很多操作,例如文字標籤,歸類,標記解釋,名稱識別;通過建立語料樹(corpus tree)來解釋句子的內外聯繫,詞根提取以及語義推理。所有這些內置模塊都允許為不同的任務建造複雜研究系統。


自然語言處理 Gensim

這是一個開源的 Python 庫,為人們提供向量空間建模和主題建模的工具。這個庫的設計旨在高效處理大規模文本:除了允許內存中處理,效率的主要來源在於廣泛使用 NumPy 的數據結構和 SciPy 的運算符號,這兩個使用起來都十分的高效和簡單。
Gensim 主要被用於未加工的非結構化的數字文本。Gensim 使用了諸如:分層狄式流程(hierarchical Dirichlet processes),潛在語義分析(latent semantic analysis),潛在狄氏分佈(latent Dirichlet allocation)以及文檔頻次(tf-idf,term frequency-inverse document frequency),隨機映射,文字/文檔向量化(word2vec,document2vec)檢測多個文檔文字中詞語出現的頻次,通常被成為語料庫(corpus),之類的算法。這些算法都是非監督性的——不需要任何的參數,唯一的輸入就是語料庫。

沒有留言:

張貼留言

Google Analytics初學者入門簡介