c++实现文本中英文单词和汉字字符的统计
1.统计文本中汉字的频数,为后续的文本分类做基础。对于汉字的统计,需要判断读取的是否为汉字。源代码如下:[C++ code]
[cpp]
/*
*@author:郑海波 http://blog.csdn.net/NUPTboyZHB
*参考:实验室小熊
*注:有删改
*/
#pragma warning(disable:4786)
#include <iostream>
#include <vector>
#include <fstream>
#include <string>
#include <map>
#include <queue>
#include <ctime>
using namespace std;
void topK(const int &K)
{
double t=clock();
ifstream infile("test.txt");
if (!infile)
cout<<"can not open file"<<endl;
string s="";
map<string,int>wordcount;
unsigned char temp[2];
while(true)//国标2312
{
infile>>temp[0];
if(infile.eof()) break;
if (temp[0]>=0xB0)//GB2312下的汉字,最小是0XB0
{
s+=temp[0];
infile>>temp[1];
s+=temp[1];
}
else//非汉字字符不统计
{
s="";
continue;
}
wordcount[s]++;
s="";
}
cout<<"单词种类:"<<wordcount.size()<<endl;
//优先队列使用小顶堆,排在前面的数量少,使用">";
priority_queue< pair< int,string >,vector< pair< int,string > >,greater< pair< int,string> > > queueK;
for (map<string,int>::iterator iter=wordcount.begin(); iter!=wordcount.end(); iter++)
{
queueK.push(make_pair(iter->second,iter->first));
if(queueK.size()>K)
queueK.pop();
}
pair<int,string>tmp;
//将排在后面的数量少,排在前面的数量多
priority_queue< pair< int,string >,vector< pair< int,string > >,less< pair< int,string> > > queueKless;
while (!queueK.empty())
{
tmp=queueK.top();
queueK.pop();
queueKless.push(tmp);
}
while(!queueKless.empty())
{
tmp=queueKless.top();
queueKless.pop();
cout<<tmp.second<<"\t"<<tmp.first<<endl;
}
cout<<"< Elapsed Time: "<<(clock()-t)/CLOCKS_PER_SEC<<" s>"<<endl;
}
int main()
{
int k=0;
cout<<"http://blog.csdn.net/NUPTboyZHB\n";
while (true)
{
cout<<"查看前K个频率最高的汉字,K=";
cin>>k;
if(k<=0)break;
topK(k);
}
return 0;
}
[图1]
2.统计英文单词的出现频率。这比统计汉字更加的容易,因为单词和单词之间是用空格分开的,所以,直接将单词保存到string中即可。
[c++ code]
[cpp]
/*
*@author:郑海波 http://blog.csdn.net/NUPTboyZHB
*参考:实验室小熊
*注:有删改
*/
#pragma warning(disable:4786)
#include <iostream>
#include <vector>
#include <fstream>
#include <string>
#include <map>
#include <queue>
#include <ctime>
using namespace std;
void topK(const int &K)
{
double t=clock();
ifstream infile;
infile.open("test.txt");
if (!infile)
cout<<"can not open file"<<endl;
string s;
map<string,int>wordcount;
while(true)
{
infile>>s;
if(infile.eof()) break;
wordcount[s]++;
}
cout<<"单词种类:"<<wordcount.size()<<endl;
//优先队列使用小顶堆,排在前面的数量少,使用">";
priority_queue< pair< int,string >,vector< pair< int,string > >,greater< pair< int,string> > > queueK;
for (map<string,int>::iterator iter=wordcount.begin(); iter!=wordcount.end(); iter++)
{
queueK.push(make_pair(iter->second,iter->first));
if(queueK.size()>K)
queueK.pop();
}
pair<int,string>tmp;
priority_queue< pair< int,string >,vector< pair< int,string > >,less< pair< int,string> > > queueKless;
while (!queueK.empty())
{
tmp=queueK.top();
queueK.pop();
&nb
补充:软件开发 , C++ ,
上一个:把C++类成员方法直接作为线程回调函数
下一个:九度1061 成绩排序
- 更多C/C++疑问解答:
- 关于c++的cout输出的问题。
- 在学校里学过C和C++,不过学的很一般,现在自学C#,会不会很难?
- 全国计算机二级C语言笔试题
- 已知某树有2个2度结点,3个3度结点,4个4度结点,问有几个叶子结点?
- c++数据结构内部排序问题,整数排序
- 2012九月计算机二级C语言全国题库,,急求急求
- 如果assert只有一个字符串作为参数,是什么意思呢?
- C语言中,哪些运算符具有左结合性,哪些具有右结合性,帮忙总结下,谢谢了!
- 为什么用结构体编写的程序输入是,0输不出来啊~~~
- 将IEEE—754的十六进制转化为十进制浮点类型,用C或C++都行,多谢各位大侠啊,非常感谢!
- 为什么这个程序求不出公式?
- 这个链表倒置的算法请大家分析下
- c语言函数库调用
- C语言unsigned int纠错
- C语言快排求解啊