python中文分词+词频统计的实现步骤
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
本文记录了一下Python在文本处理时的一些过程+代码
一、文本导入
我准备了一个名为abstract.txt的文本文件
接着是在网上下载了stopword.txt(用于结巴分词时的停用词)
有一些是自己觉得没有用加上去的
另外建立了自己的词典extraDict.txt
准备工作做好了,就来看看怎么使用吧!
二、使用步骤
1.引入库
代码如下:
2.读入数据
代码如下:
3.取出停用词表
4.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)
5. 输出分词并去停用词的有用的词到txt
6.函数调用
7.结果
附:输入一段话,统计每个字母出现的次数
先来讲一下思路:
例如给出下面这样一句话
Love is more than a wordit says so much.When I see these four letters,I almost feel your touch.This is only happened sinceI fell in love with you.Why this word does this,I haven’t got a clue.
那么想要统计里面每一个单词出现的次数,思路很简单,遍历一遍这个字符串,再定义一个空字典count_dict,看每一个单词在这个用于统计的空字典count_dict中的key中存在否,不存在则将这个单词当做count_dict的键加入字典内,然后值就为1,若这个单词在count_dict里面已经存在,那就将它对应的键的值+1就行
下面来看代码:
输出结果是这样:
总结
以上就是今天要讲的内容,本文仅仅简单介绍了python的中文分词及词频统计!
到此这篇关于python中文分词+词频统计的实现步骤的文章就介绍到这了,更多相关python中文分词 词频统计内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
您可能感兴趣的文章:一文带你掌握Python中文词频统计Python可视化单词统计词频统计中文分词的实现步骤Python jieba 中文分词与词频统计的操作python实现简单中文词频统计示例Python英文文章词频统计(14份剑桥真题词频统计)python写程序统计词频的方法python利用多种方式来统计词频(单词个数)Python统计中文词频的四种方法小结
栏目分类
- BIGTIME中文网
- BIGTIME中文网
你的位置:SHILL Token中文网 > BIGTIME中文网 > python中文分词+词频统计的实现步骤