jieba:简单好用的中文分词工具
发布在GitHub不完全装B指南2014年3月21日view:9853
在文章任何区域双击击即可给文章添加【评注】!浮到评注点上可以查看详情。

enter image description here

首先推荐给大家一个GitHub在线学习网站,http://pcottle.github.io/learnGitBranching/ ,感谢@吴汉剑 同学告诉我这个网站~

==========================================================

封面人物:蒂姆·伯纳斯·李(Tim Berners-Lee,1955年6月8日-)

英国计算机科学家。他是万维网的发明者,麻省理工学院教授。1990年12月25日,罗伯特·卡里奥在CERN和他一起成功通过Internet实现了HTTP代理与服务器的第一次通讯。

伯纳斯-李是万维网联盟的主席。他也是万维网基金会的创办人。2004年,英女皇伊丽莎白二世向伯纳斯-李颁发大英帝国爵级司令勋章。2009年4月,他获选为美国国家科学院外籍院士。在2012年夏季奥林匹克运动会开幕典礼上,他获得了“万维网发明者”的美誉。伯纳斯-李本人也参与了开幕典礼,在一台NeXT计算机前工作。他在Twitter上发表消息说:“这是给所有人的”,体育馆内的LCD光管随即显示出文字来。

==========================================================

推荐指数:★★★★★

使用难度:★★

适用范围:关键词提取,搜索引擎

GitHub数据enter image description here

==========================================================

结巴(jieba)是国人出的一个精品插件,可以对一段中文进行分词,有三种分词模式,可以适应不同需求。

目前已有Python、JAVA、C++和Nodejs版本。

==========================================================

一段代码教程

>>>seg_list = jieba.cut("他来到了网易杭研大厦") 
>>>print ", ".join(seg_list)
他, 来到, 了, 网易, 杭研, 大厦

这是Python版的使用示例,大家可以看到使用起来非常简单,分词结果也不错。

分词的关键取决于词典,目前结巴提供的词典虽然并不是非常全,但是对于一般的应用已经足够了。大家也可以自己制作词典或者找找其他人制作好的词典。

==========================================================

GitHub Tips

前几次介绍的命令都是本地的,并没有和github的服务器进行交互。所以实际上我们是不能在github上看到我们的库的。

今天就来看看如何把我们本地的库提交到github上——git push。

一般情况下我们运行的是“git push origin master”。

“origin”其实是库的源地址,那么什么是地址呢?其实地址就是网址,表示github服务器上的一个库。我们指定一个地址,就是告诉github:“这是我们要提交的目标地址”。

“origin”其实是一个代号,具体的地址配置在git的config当中。如果你喜欢的话可以随便给他起名,反正最终的目标地址是一样的。

那么源地址是什么意思呢?

我们可能大多数时候都是自己创建库自己提交,所以不用考虑太多。不过有的时候我们会clone别人的库,这个时候源地址就是人家库的地址了。

我们也可以自己添加地址,这样在push的时候就可以提交到不同的库中。具体的命令我们下次再讲。

那么什么是master呢?master就是要提交的目标分支。

分支很好理解,一个库可以有多个分支,每个分支之间是互相独立的。大型的工程一般都有多个分支,比如开发分支、稳定分支等等。

分支的意义就是将开发工作隔离成不同的部分,每个部分独立开发,然后等到了合适的时候再把分支合并。

好了,最后我们总结一下这个命令干了什么:把本地库提交到地址为origin的库中的master分支上。

今天说的有点多,不知道大家理解了吗?

==========================================================

jieba项目首页

==========================================================

大家有觉得不错的库一定要推荐给我哦~

欢迎扫描二维码关注我的微信号“GitHub不完全装B指南”,获取最新文章。

谢谢~ enter image description here

评论
发表评论
暂无评论
WRITTEN BY
GitHub不完全装B指南
可能是全宇宙最低端的GitHub使用教程,1秒学会如何用别人的库装自己的逼!
TA的新浪微博
PUBLISHED IN
GitHub不完全装B指南

介绍我自己搜集到的一些优秀开源库,希望通过自己的努力让更多的人认识GitHub,了解GitHub,最后从GitHub中受益!

力图用最轻松的方式让大家会用最牛B的库!

我的收藏