全部課程
發(fā)布時間: 2019-08-29 13:43:18
對中文分詞框架jieba當中的分詞模塊有相應(yīng)的了解,主要是對分詞函數(shù)及其相應(yīng)參數(shù)有所了解。
4.安裝相關(guān)模塊
?安裝jieba分詞模塊。點擊windows系統(tǒng)左下角的“開始”按鈕,進入菜單列表:
?圖1-1Anaconda Prompt
?點擊“Anaconda Prompt”按鈕,進入Anaconda系統(tǒng):
?圖1-2Anaconda 環(huán)境
?兩種安裝安裝方式,基于Anaconda的conda install jieba和基于Python的pip install jieba,兩種都可以使用,操作如下:
?圖1-3安裝jieba
?同樣的操作流程,其他需要的Python框架安裝也是如此。
?5.實驗步驟
?本章內(nèi)容包括4個小操作,都是基于jieba分詞進行操作,其中結(jié)巴分詞包括三種分詞模式,下面就進行一一演示。具體如下:
??jieba的精確分詞模式實現(xiàn);
?jieba的全分詞模式實現(xiàn);
?jieba的搜索分詞模式實現(xiàn);
?基于jieba的文本分詞實現(xiàn);
?5.1.精確模式分詞
代碼:
# 導(dǎo)入模塊
import jieba
import warnings
# 忽略警告
warnings.simplefilter('ignore')
# 精確模式
print("----精確模式:----")
# 分詞語料
s = u'華為合作伙伴網(wǎng)絡(luò)是華為與合作伙伴之間的協(xié)作框架,包含一系列的合作伙伴計劃。'
# 精確分詞
cut = jieba.cut(s, cut_all = False, HMM=False)
print(' '.join(cut))
結(jié)果:
----精確模式:----
華為 合作伙伴 網(wǎng)絡(luò) 是 華為 與 合作伙伴 之間 的 協(xié)作 框架 , 包含 一系列 的 合作伙伴 計劃 。
5.2.全模式分詞
代碼:
# 全模式
print("----全模式:----")
# 全模式分詞和HMM模式對比
print(' '.join(jieba.cut(s, cut_all = True)))
print(' '.join(jieba.cut(s, cut_all = False, HMM=False)))
結(jié)果:
----全模式:----
華為 合作 合作伙伴 伙伴 網(wǎng)絡(luò) 是 華為 與 合作 合作伙伴 伙伴 之間 的 協(xié)作 框架 包含 一系 一系列 系列 的 合作 合作伙伴 伙伴 計劃
華為 合作伙伴 網(wǎng)絡(luò) 是 華為 與 合作伙伴 之間 的 協(xié)作 框架 , 包含 一系列 的 合作伙伴 計劃 。
5.4.文本文件分詞
代碼:
# 文本分詞
old_file = "../data/華為.txt"
new_file = "../data/華為cut.txt"
# 讀取數(shù)據(jù)
with open(old_file, 'r') as f:
text = f.read()
# 分詞
new_text = jieba.cut(text, cut_all=False)
# 去掉標點符號
str_out = ' '.join(new_text).replace(',', '').replace('。', '').replace('?', '').replace('!', '').replace('“', '').replace('”', '').replace(':','').replace('…', '').replace('(', '').replace(')', '').replace('—', '').replace('《', '').replace('》', '').replace('、', '').replace('‘', '').replace('’', '').replace('-', '').replace('\n', '')
# 數(shù)據(jù)寫入和保存
With open(new_file, 'w', encoding='utf-8') as fo:
fo.write(str_out)
# 結(jié)果查看
with open(new_file, "r", encoding="utf-8") as f:
print(f.readline(1000))
結(jié)果:
公司簡介 華為 是 全球 領(lǐng)先 的 ICT 信息 與 通信 基礎(chǔ)設(shè)施 和 智能 終端 提供商 致力于 把 數(shù)字 世界 帶入 每個 人 每個 家庭 每個 組織 構(gòu)建 萬物 互聯(lián) 的 智能 世界 我們 在 通信 網(wǎng)絡(luò) IT 智能 終端 和 云 服務(wù) 等 領(lǐng)域 為 客戶 提供 有 競爭力 安全 可信賴 的 產(chǎn)品 解決方案 與 服務(wù) 與 生態(tài) 伙伴 開放 合作 持續(xù) 為 客戶 創(chuàng)造 價值 釋放 個人 潛能 豐富 家庭 生活 激發(fā) 組織 創(chuàng)新 華為 堅持 圍繞 客戶 需求 持續(xù) 創(chuàng)新 加大 基礎(chǔ) 研究 投入 厚積薄發(fā) 推動 世界 進步 華為 成立 于 1987 年 是 一家 由 員工 持有 全部 股份 的 民營企業(yè) 目前 有 18 萬 員工 業(yè)務(wù) 遍及 170 多個 國家 和 地區(qū) 我們 為 世界 帶來 了 什么 為 客戶 創(chuàng)造 價值 華為 和 運營商 一起 在 全球 建設(shè) 了 1 , 500 多張 網(wǎng)絡(luò) 幫助 世界 超過 三分之一 的 人口 實現(xiàn) 聯(lián)接 華為 攜手 合作伙伴 為 政府 及 公共事業(yè) 機構(gòu) 金融 能源 交通 制造 等 企業(yè) 客戶 提供 開放 靈活 安全 的 端 管云 協(xié)同 ICT 基礎(chǔ)設(shè)施 平臺 推動 行業(yè) 數(shù)字化 轉(zhuǎn)型 ; 為云 服務(wù) 客戶 提供 穩(wěn)定 可靠 安全 可信 和 可 持續(xù) 演進 的 云 服務(wù) 華為 智能 終端 和 智能手機 正在 幫助 人們 享受 高品質(zhì) 的 數(shù)字 工作 生活 和 娛樂 體驗 推動 產(chǎn)業(yè) 良性 發(fā)展 華為 主張 開放 合作 共贏 與 客戶 合作伙伴 及友商 合作 創(chuàng)新 擴大 產(chǎn)業(yè) 價值 形成 健康 良性 的 產(chǎn)業(yè) 生態(tài)系統(tǒng) 華為 加入 360 多個 標準 組織 產(chǎn)業(yè) 聯(lián)盟 和 開源 社區(qū) 積極參與 和 支持 主流 標準 的 制定 構(gòu)建 共 贏 的 生態(tài)圈 我們 面向 云 計算 NFV / SDN 5G 等 新興 熱點 領(lǐng)域 與 產(chǎn)業(yè) 伙伴 分工協(xié)作 推動 產(chǎn)業(yè) 持續(xù) 良性 發(fā)展 促進 經(jīng)濟 增長 華為 不僅 為 所在 國家 帶來 直接 的 稅收 貢獻 促進 當?shù)?就業(yè) 形成 產(chǎn)業(yè)鏈 帶動 效應(yīng) 更 重要 的 是 通過 創(chuàng)新 的 ICT 解決方案 打造 數(shù)字化 引擎 推動 各行各業(yè) 數(shù)字化 轉(zhuǎn)
?6.實驗小結(jié)
本章主要是基于中文分詞框架jieba進行多種jieba分詞模式的演練和操作,由于每種模式的分詞效果各不相同,所以可以根據(jù)不同的需求進行相應(yīng)模式的選擇。