现频繁的词语
java中怎么做把随机一段话中出现频繁的词语显示出来用一个方法就行了
提示:
网络热词“给力”登上《人民日报》头版头条。11月10日,《人民日报》头版头条标题《江苏给力“文化强省”》让不少人有些“意外”。一向以严肃严谨著称的《人民日报》采用如此“潮”的标题,立刻引发如潮热议。有网友将这一标题截图发布在微博上后,网友纷纷大呼“标题给力”
“给力”,音gěi lì,原本属于网络语言,最早出现于日本搞笑动漫《西游记:旅程的终点》的中文配音版,属于东北方言和日语的混合产物,意思类似于“牛”、“很棒”、“酷”,常作感叹词用。另外,在实际使用中也可加一个否定前缀,如“不给力”,表示某个事件或某个人带给自己一种很失望的感觉。
另一种说法是,“给力”一词是从闽南话演变过来的,意思为很精彩、很棒的意思。
问题:
把这短话中出现最多的词语显示出来(显示在控制台就可以了)
--------------------编程问答-------------------- 相比词频统计来说,最大的难题应该是:你凭什么判断这段话中哪些是词语?
楼主打算这么解决这个问题的? --------------------编程问答-------------------- 难度较大
中文搜索中的分词功能是难点
简单的方法:先将文章中每个字分出来,不断排列组合
去一个已有的词库中比对。
当然也有复杂的分词器。。写出来能申请专利了。 --------------------编程问答-------------------- 而且在不同语境下,不同的词表达的意思不一样,这又是一个问题
以前常见的小学生造句笑话
用难过造句
答:门前有一条小沟很难过。
所以都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
比如歧义识别,新词识别等等。。 --------------------编程问答-------------------- 这是我面试一家公司是遇见的一个机试题。我不明白怎么做。可能我有些表达不清悉。那题目的意思是在一段不中把出现最频繁的一个词语显示出来。有java写出来。不论有什么方法 --------------------编程问答-------------------- 这个问题实在蛋疼 --------------------编程问答-------------------- 是英文还是中文啊? --------------------编程问答--------------------
建议LZ看一下IS分词器或者庖丁解牛
都提供了对lucene的接口 --------------------编程问答-------------------- 中文。eclipse有这插件吗?面试的时候这样出问题。那应该有解啊。 --------------------编程问答--------------------
如果是面试的题目,那么只能先自己建一个词库,然后根据这个词库来进行词频统计了;关于特殊短语问题的就忽略不管了。
在词库基础上统计词频不算太难,弄个HashMap<String, Integer> 就行了 --------------------编程问答-------------------- 面试公司提供了一段文字。
补充:Java , Eclipse