Python分词库之jieba库的使用

/ 2评 / 1

上个月由于从之前的公司离职,到了新公司之后,工作上的事情很多,所以很久没更新博客了。这几天抽空更新几篇博客,将这两个月以来的经验分享给大家。

今天要说的是Python中的分词库——jieba库。最近一段时间由于公司电商部的需要,领导让我写个文章伪原创的小demo,主要是为了SEO优化而服务的。大家都知道,网站SEO做好了,能为公司省下一大笔开支。废话不多说,直接开讲!

jieba库(我称之为结巴库),是将一句或者一段话甚至是一篇文章按照它自己的词库分为若干个词语。jieba库主要有以下三种分词方式:

精确模式

所谓的精确模式就是把文本精确的切分开,不存在冗余单词。使用方法为jieba.cut(str),如:

全模式

全模式就是把文本中所有可能的词语都扫描出来,有冗余 。使用方法为jieba.cut(str, cut_all=True),如:

搜索引擎模式

这第三种是做SEO最常用的,其分词是在精确模式基础上,对长词再次切分。使用方法为jieba.cut_for_search(str),如:

当然,jieba库为什么说很强大呢?基于它强大的词库,可以为SEO、文章编辑等人员节省大量的时间。机器可以做的事为什么要用人去做呢?今天我也为大家整理了jieba库的几个常用的函数,如图:

Python之jieba库常用函数

我这个项目是为SEO而服务的,所以我项目中用到最多的函数是jieba.lcut_for_search(str)这个函数,给定一句话或者一个关键词之后,借助jieba库为我分词,然后循环分的词对数据库进行查询。大家可以根据自己的实际情况和需要去选择合适的。

这里提醒大家一下,如果你有某些词语不想被分开,jieba库也是支持自定义分词的。你可以指定哪些关键词忽略分词,你也可以添加你自己的词库。

  1. sikis说道:

    I am sure this paragraph has touched all the internet users, its really really fastidious piece of writing on building up new web site. Ludovika Waverley Richard

  2. casino说道:

    I view something genuinely interesting about your blog so I saved to bookmarks . Arlena Gaelan Wallas

发表评论

邮箱地址不会被公开。 必填项已用*标注