宝贝腿开大点我添添你视频男男,中文字幕熟女人妻av一区二区三区,爱色成人网,大地资源高清播放在线观看在线电影在线观看 ,777米奇影视第四色

集團站切換校區(qū)

驗證碼已發(fā)送,請查收短信

復(fù)制成功
微信號:togogoi
添加微信好友, 詳細了解課程
已復(fù)制成功,如果自動跳轉(zhuǎn)微信失敗,請前往微信添加好友
打開微信
圖標

業(yè)界新聞

當前位置:首頁 > >業(yè)界新聞 > >

人工智能AI培訓(xùn)_中文文本分詞

發(fā)布時間: 2019-08-29 13:43:18

  人工智能AI培訓(xùn)_中文文本分詞

  1.實驗簡介
  中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜得多、困難得多。
  在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因為中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎(chǔ),比如搜索引擎、機器翻譯、語音合成、自動分類、自動摘要、自動校對等,都需要用到分詞。
  2.實驗?zāi)康?/strong>
  本章的主要內(nèi)容就是基于Python3.6和中文分詞框架jieba進行簡單的分詞操作演練,并對比多種分詞模式的分詞效果;本章總共4個小實驗,前三個是對3種分詞模式的簡單演示,第4個案例主要是基于txt文本數(shù)據(jù)進行全文的分詞展示。
  3.實驗預(yù)備知識
  本實驗操作需要學(xué)員有3方面的預(yù)備知識做支撐。
  自然語言處理中分詞技術(shù)的相關(guān)理論基礎(chǔ)支撐,分詞是自然語言處理中最基礎(chǔ)的操作,可用于多種自然語言處理任務(wù);
  有相應(yīng)Python語言實戰(zhàn)基礎(chǔ),對Python基礎(chǔ)的數(shù)據(jù)格式,數(shù)據(jù)類型以及相關(guān)的字符處理函數(shù)有所了解,并熟悉對文件的讀寫操作。

  對中文分詞框架jieba當中的分詞模塊有相應(yīng)的了解,主要是對分詞函數(shù)及其相應(yīng)參數(shù)有所了解。

  4.安裝相關(guān)模塊
  ?安裝jieba分詞模塊。點擊windows系統(tǒng)左下角的“開始”按鈕,進入菜單列表:

  ?圖1-1Anaconda Prompt
  ?點擊“Anaconda Prompt”按鈕,進入Anaconda系統(tǒng):

  ?圖1-2Anaconda 環(huán)境
  ?兩種安裝安裝方式,基于Anaconda的conda install jieba和基于Python的pip install jieba,兩種都可以使用,操作如下:

  ?圖1-3安裝jieba
  ?同樣的操作流程,其他需要的Python框架安裝也是如此。
  ?5.實驗步驟
  ?本章內(nèi)容包括4個小操作,都是基于jieba分詞進行操作,其中結(jié)巴分詞包括三種分詞模式,下面就進行一一演示。具體如下:
    ??jieba的精確分詞模式實現(xiàn);
    ?jieba的全分詞模式實現(xiàn);
    ?jieba的搜索分詞模式實現(xiàn);
    ?基于jieba的文本分詞實現(xiàn);
  ?5.1.精確模式分詞
  代碼:
  # 導(dǎo)入模塊
  import jieba
  import warnings
  # 忽略警告
  warnings.simplefilter('ignore')
  # 精確模式
  print("----精確模式:----")
  # 分詞語料
  s = u'華為合作伙伴網(wǎng)絡(luò)是華為與合作伙伴之間的協(xié)作框架,包含一系列的合作伙伴計劃。'
  # 精確分詞
  cut = jieba.cut(s, cut_all = False, HMM=False)
  print(' '.join(cut))
  結(jié)果:
  ----精確模式:----
  華為 合作伙伴 網(wǎng)絡(luò) 是 華為 與 合作伙伴 之間 的 協(xié)作 框架 , 包含 一系列 的 合作伙伴 計劃 。
  5.2.全模式分詞
  代碼:
  # 全模式
  print("----全模式:----")
  # 全模式分詞和HMM模式對比
  print(' '.join(jieba.cut(s, cut_all = True)))
  print(' '.join(jieba.cut(s, cut_all = False, HMM=False)))
  結(jié)果:
  ----全模式:----
  華為 合作 合作伙伴 伙伴 網(wǎng)絡(luò) 是 華為 與 合作 合作伙伴 伙伴 之間 的 協(xié)作 框架   包含 一系 一系列 系列 的 合作 合作伙伴 伙伴 計劃
  華為 合作伙伴 網(wǎng)絡(luò) 是 華為 與 合作伙伴 之間 的 協(xié)作 框架 , 包含 一系列 的 合作伙伴 計劃 。

  5.4.文本文件分詞
  代碼:
  # 文本分詞
  old_file = "../data/華為.txt"
  new_file = "../data/華為cut.txt"
  # 讀取數(shù)據(jù)
  with  open(old_file, 'r') as f:
  text = f.read()
  # 分詞
  new_text = jieba.cut(text, cut_all=False)
  # 去掉標點符號
  str_out = ' '.join(new_text).replace(',', '').replace('。', '').replace('?', '').replace('!', '').replace('“', '').replace('”', '').replace(':','').replace('…', '').replace('(', '').replace(')', '').replace('—', '').replace('《', '').replace('》', '').replace('、', '').replace('‘', '').replace('’', '').replace('-', '').replace('\n', '')
  # 數(shù)據(jù)寫入和保存
  With open(new_file, 'w', encoding='utf-8') as fo:
  fo.write(str_out)
  # 結(jié)果查看
  with open(new_file, "r", encoding="utf-8") as f:
  print(f.readline(1000))
  結(jié)果:
  公司簡介  華為 是 全球 領(lǐng)先 的 ICT  信息 與 通信  基礎(chǔ)設(shè)施 和 智能 終端 提供商  致力于 把 數(shù)字 世界 帶入 每個 人  每個 家庭  每個 組織  構(gòu)建 萬物 互聯(lián) 的 智能 世界  我們 在 通信 網(wǎng)絡(luò)  IT  智能 終端 和 云 服務(wù) 等 領(lǐng)域 為 客戶 提供 有 競爭力  安全 可信賴 的 產(chǎn)品  解決方案 與 服務(wù)  與 生態(tài) 伙伴 開放 合作  持續(xù) 為 客戶 創(chuàng)造 價值  釋放 個人 潛能  豐富 家庭 生活  激發(fā) 組織 創(chuàng)新  華為 堅持 圍繞 客戶 需求 持續(xù) 創(chuàng)新  加大 基礎(chǔ) 研究 投入  厚積薄發(fā)  推動 世界 進步  華為 成立 于 1987 年  是 一家 由 員工 持有 全部 股份 的 民營企業(yè)  目前 有 18 萬 員工  業(yè)務(wù) 遍及 170 多個 國家 和 地區(qū)    我們 為 世界 帶來 了 什么   為 客戶 創(chuàng)造 價值  華為 和 運營商 一起  在 全球 建設(shè) 了 1 , 500 多張 網(wǎng)絡(luò)  幫助 世界 超過 三分之一 的 人口 實現(xiàn) 聯(lián)接  華為 攜手 合作伙伴  為 政府 及 公共事業(yè) 機構(gòu)  金融  能源  交通  制造 等 企業(yè) 客戶  提供 開放  靈活  安全 的 端 管云 協(xié)同 ICT 基礎(chǔ)設(shè)施 平臺  推動 行業(yè) 數(shù)字化 轉(zhuǎn)型 ; 為云 服務(wù) 客戶 提供 穩(wěn)定 可靠  安全 可信 和 可 持續(xù) 演進 的 云 服務(wù)  華為 智能 終端 和 智能手機  正在 幫助 人們 享受 高品質(zhì) 的 數(shù)字 工作  生活 和 娛樂 體驗   推動 產(chǎn)業(yè) 良性 發(fā)展  華為 主張 開放  合作  共贏  與 客戶 合作伙伴 及友商 合作 創(chuàng)新  擴大 產(chǎn)業(yè) 價值  形成 健康 良性 的 產(chǎn)業(yè) 生態(tài)系統(tǒng)  華為 加入 360 多個 標準 組織  產(chǎn)業(yè) 聯(lián)盟 和 開源 社區(qū)  積極參與 和 支持 主流 標準 的 制定  構(gòu)建 共 贏 的 生態(tài)圈  我們 面向 云 計算  NFV / SDN  5G 等 新興 熱點 領(lǐng)域  與 產(chǎn)業(yè) 伙伴 分工協(xié)作  推動 產(chǎn)業(yè) 持續(xù) 良性 發(fā)展   促進 經(jīng)濟 增長  華為 不僅 為 所在 國家 帶來 直接 的 稅收 貢獻  促進 當?shù)?就業(yè)  形成 產(chǎn)業(yè)鏈 帶動 效應(yīng)  更 重要 的 是 通過 創(chuàng)新 的 ICT 解決方案 打造 數(shù)字化 引擎  推動 各行各業(yè) 數(shù)字化 轉(zhuǎn)

  ?6.實驗小結(jié)
本章主要是基于中文分詞框架jieba進行多種jieba分詞模式的演練和操作,由于每種模式的分詞效果各不相同,所以可以根據(jù)不同的需求進行相應(yīng)模式的選擇。

上一篇: 大數(shù)據(jù)培訓(xùn)_Kafka 組件的介紹

下一篇: 大數(shù)據(jù)培訓(xùn)_容量調(diào)度器的介紹

在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質(zhì)服務(wù)!