python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

付费-智能写作专栏 同时被 2 个专栏收录
28 篇文章 466 订阅 ¥99.00 ¥9.90
62 篇文章 4 订阅

**公众号“素质云笔记”定期更新博客内容:**
![这里写图片描述](https://imgconvert.csdnimg.cn/aHR0cDovL2ltZy5ibG9nLmNzZG4ubmV0LzIwMTgwMjI2MTU1MzQ4NTQ1?x-oss-process=image/format,png)

THULAC

四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室)
四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客:
python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

这里写图片描述
.


一、SnowNLP

只处理的unicode编码,所以使用时请自行decode成unicode。来源:https://github.com/isnowfy/snownlp
以下功能都是笔者比较感兴趣的ÿ

  • 31
    点赞
  • 9
    评论
  • 50
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值