㈠ 關於jieba分詞,我已有jie包,手動安裝說把jieba放在當然目錄或site-package這
在你使用import jieba導入包時,會從sys.path列表中的文件路徑中查找,如:python目錄,site-pacakges,系統目錄,當前目錄等(不一定是這個順序)
site-packages裡面放的是第三方包,用安裝的方法時,安裝包會把對應的文件釋放到site-packages,而手動時一樣的意思,把對應的包復制到site-packages即可。
㈡ 請問在結巴分詞後,如何獲取關鍵詞的同義詞或近義詞呢
惡
㈢ 結巴分詞的那個 dict.txt 是用什麼工具訓練出來的呢
需要使用的哦
㈣ thulac 分詞 用的什麼詞典
python做中文分詞處理主要有以下幾種:結巴分詞、NLTK、THULAC
1、fxsjy/jieba
結巴的標語是:做最好的 Python 中文分片語件,或許從現在來看它沒做到最好,但是已經做到了使用的人最多。結巴分詞網上的學習資料和使用案例比較多,上手相對比較輕松,速度也比較快。
結巴的優點:
支持三種分詞模式
支持繁體分詞
支持自定義詞典
MIT 授權協議
2、THULAC:一個高效的中文詞法分析工具包
前兩天我在做有關於共享單車的用戶反饋分類,使用jieba分詞一直太過零散,分類分不好。後來江兄給我了THULAC: 由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包 。THULAC的介面文檔很詳細,簡單易上手。
THULAC分詞的優點:
能力強。利用規模最大的人工分詞和詞性標注中文語料庫(約含5800萬字)訓練而成,模型標注能力強大。
准確率高。該工具包在標准數據集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標注的F1值可達到92.9%
速度較快。同時進行分詞和詞性標注速度為300KB/s,每秒可處理約15萬字。只進行分詞速度達到1.3MB/s,速度比jieba慢
Python 解決中文編碼問題基本可以用以下邏輯:
utf8(輸入) ——> unicode(處理) ——> (輸出)utf8
Python 裡面處理的字元都是都是unicode 編碼,因此解決編碼問題的方法是把輸入的文本(無論是什麼編碼)解碼為(decode)unicode編碼,然後輸出時再編碼(encode)成所需編碼。
由於處理的一般為txt 文檔,所以最簡單的方法,是把txt 文檔另存為utf-8 編碼,然後使用Python 處理的時候解碼為unicode(sometexts.decode('utf8')),輸出結果回txt 的時候再編碼成utf8(直接用str() 函數就可以了)。
㈤ python下nltk.probability包是干什麼的
NLTK是python的自然語言工具包,probability用於計算單詞的概率。類似於結巴分詞的功能吧。
㈥ 結巴是幾個語素
jiuba有6個語素。
jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標注的功能,詞性類別如下:
Ag | 形語素 | 形容詞性語素。形容詞代碼為 a,語素代碼g前面置以A。
a | 形容詞 | 取英語形容詞 adjective的第1個字母。
ad | 副形詞 | 直接作狀語的形容詞。形容詞代碼 a和副詞代碼d並在一起。
an | 名形詞 | 具有名詞功能的形容詞。形容詞代碼 a和名詞代碼n並在一起。
b | 區別詞 | 取漢字「別」的聲母。
c | 連詞 | 取英語連詞 conjunction的第1個字母。
dg | 副語素 | 副詞性語素。副詞代碼為 d,語素代碼g前面置以D。
d | 副詞 | 取 adverb的第2個字母,因其第1個字母已用於形容詞。
e | 嘆詞 | 取英語嘆詞 exclamation的第1個字母。
f | 方位詞 | 取漢字「方」
g | 語素 |絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。
h | 前接成分 | 取英語 head的第1個字母。
i | 成語 | 取英語成語 idiom的第1個字母。
j | 簡稱略語 | 取漢字「簡」的聲母。
k | 後接成分
l | 慣用語 | 慣用語尚未成為成語,有點「臨時性」,取「臨」的聲母。
m | 數詞 | 取英語 numeral的第3個字母,n,u已有他用。
Ng | 名語素 | 名詞性語素。名詞代碼為 n,語素代碼g前面置以N。
n | 名詞 | 取英語名詞 noun的第1個字母。
nr | 人名 | 名詞代碼 n和「人(ren)」的聲母並在一起。
ns | 地名 | 名詞代碼 n和處所詞代碼s並在一起。
nt | 機構團體 | 「團」的聲母為 t,名詞代碼n和t並在一起。
nz | 其他專名 | 「專」的聲母的第 1個字母為z,名詞代碼n和z並在一起。
o | 擬聲詞 | 取英語擬聲詞 onomatopoeia的第1個字母。
p | 介詞 | 取英語介詞 prepositional的第1個字母。
q | 量詞 | 取英語 quantity的第1個字母。
r | 代詞 | 取英語代詞 pronoun的第2個字母,因p已用於介詞。
s | 處所詞 | 取英語 space的第1個字母。
tg | 時語素 | 時間詞性語素。時間詞代碼為 t,在語素的代碼g前面置以T。
t | 時間詞 | 取英語 time的第1個字母。
u | 助詞 | 取英語助詞 auxiliary
vg | 動語素 | 動詞性語素。動詞代碼為 v。在語素的代碼g前面置以V。
v | 動詞 | 取英語動詞 verb的第一個字母。
vd | 副動詞 | 直接作狀語的動詞。動詞和副詞的代碼並在一起。
vn | 名動詞 | 指具有名詞功能的動詞。動詞和名詞的代碼並在一起。
w | 標點符號
x | 非語素字 | 非語素字只是一個符號,字母 x通常用於代表未知數、符號。
y | 語氣詞 | 取漢字「語」的聲母。
z | 狀態詞 | 取漢字「狀」的聲母的前一個字母。
un | 未知詞 | 不可識別詞及用戶自定義片語。取英文Unkonwn首兩個字母。(非北大標准,CSW分詞中定義)
㈦ python3怎麼使用結巴分詞
下面這個程序是對一個文本文件里的內容進行分詞的程序:test.py
[python] view plain
#!/usr/bin/python
#-*-encoding:utf-8-*-
importjieba#導入jieba模塊
defsplitSentence(inputFile,outputFile):
fin=open(inputFile,'r')#以讀的方式打開文件
fout=open(outputFile,'w')#以寫得方式打開文件
foreachLineinfin:
line=eachLine.strip().decode('utf-8','ignore')#去除每行首尾可能出現的空格,並轉為Unicode進行處理
wordList=list(jieba.cut(line))#用結巴分詞,對每行內容進行分詞
outStr=''
forwordinwordList:
outStr+=word
outStr+='/'
fout.write(outStr.strip().encode('utf-8')+' ')#將分詞好的結果寫入到輸出文件
fin.close()
fout.close()
splitSentence('myInput.txt','myOutput.txt')
寫完程序之後,在Linux重點輸入:python test.py即可運行程序進行分詞。
輸入的文件內容如下所示:
注意:第11行的 jieba.cut()返回的結構是一個可迭代的generator,可以用list(jieba.cut(...))轉化為list
㈧ python中怎樣處理漢語的同義詞用結巴分詞
python中文分詞:結巴分詞
中文分詞是中文文本處理的一個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點:
基於Trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG)
採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞,採用了基於漢字成詞能力的HMM模型,使用了Viterbi演算法
安裝(Linux環境)
下載工具包,解壓後進入目錄下,運行:python setup.py install
模式
默認模式,試圖將句子最精確地切開,適合文本分析
全模式,把句子中所有的可以成詞的詞語都掃描出來,適合搜索引擎
介面
組件只提供jieba.cut 方法用於分詞
cut方法接受兩個輸入參數:
第一個參數為需要分詞的字元串
cut_all參數用來控制分詞模式
待分詞的字元串可以是gbk字元串、utf-8字元串或者unicode
jieba.cut返回的結構是一個可迭代的generator,可以使用for循環來獲得分詞後得到的每一個詞語(unicode),也可以用list(jieba.cut(...))轉化為list
實例
#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)
㈨ 結巴分詞 詞性標注 輸出的是什麼類型
nltk.word_tokenize(sent) #對句子進行分詞二、NLTK進行詞性標注用到的函數:...但是nltk有很好的樹類,該類用list實現可以利用stanfordparser的輸出構建一棵python...
㈩ 怎麼是用python 語言 使用結巴分詞 呢
Python代碼
#encoding=utf-8
importjieba
seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式
seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式
seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)
輸出:
FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學
DefaultMode:我/來到/北京/清華大學
他,來到,了,網易,杭研,大廈(此處,「杭研」並沒有在詞典中,但是也被Viterbi演算法識別出來了)