ch0 - 分词与词频统计

分词用到 jieba,词频统计用到 collections.Counter

jieba 分词

jieba.cut() 为一般分词,返回一个 generator;jieba.posseg.cut() 为词性标注分词。

三种分词模式:

  • 精确模式 jieba.cut(text, cut_all=False)
  • 全模式 jieba.cut(text, cut_all=True)
  • 搜索引擎模式 jieba.cut_for_search()

我们选用 cut 方法默认的精确模式。

collections

Python 标准库 collections 里面提供了几种很好用的特殊数据类型,包括 dict 的子类 Counter。使用 Counter 做词频统计很方便,不用担心某个键不存在而引发 KeyError:

cnt = Counter()
for word in words:
    cnt[word] += 1
print(cnt.mostcommon(10))

results matching ""

    No results matching ""