当前位置:编程学习 > JAVA >>

正则表达式实现除去重复的单词

起因:还是动态生成图表时的问题,因为字段是动态设定的,可以在多个轴、序列中设置字段,这就很有可能会存在字段的重复问题。重复的字段生成Sql并执行是没有问题的,但执行的结果,生成List(执行Hibernate的sqlquery.setResultTransformer(Transformers.ALIAS_TO_ENTITY_MAP).list())时就会有问题了(抛出异常)。所以就要除去查询sql字段中的重复字段。
 
首先想到的是把字符串分隔成数组,再添加到set中,再用Set中的字段名重新生成不重复的字段名字符串。
 
代码是这样的:
 
[java]  
String s = "D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,";  
  
String[] s1 = s.split(",");  
Set set = new HashSet();  
for(String ss : s1){  
    set.add(ss);  
}  
Iterator iter = set.iterator();  
String newStr = "";  
while(iter.hasNext()){  
    newStr += iter.next();  
}  
结果显示,重复的字段并没有去掉。
 
把set.add(ss);改为
 
[java]  
if(!set.contains(ss))  
    set.add(ss);  
结果依旧。
 
我不知道java是集合是怎么处理字符串的。请教java老手,说理论上Set中应该是不会重复的,但对出现这样的结果,也没有有效的解决办法。哪位大虾能告诉我这是怎么回事呀?
 
然后我就想到使用正则表达式来实现除去字符串的重复字段名。
 
第一个表达式:
 
(\b[\w|_]+\b,?)(.*)\1(.*),代码为:
 
[java] 
String s = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,LOWVOLTAGE_LOSS_RATE,NAME,YEARMONTH,PPQ,PPQ,SPQ,PPQ,PPQ,SPQ,CODE,LOWVOLTAGE_LOSS_RATE";  
Pattern p = Pattern.compile("(\\b[\\w|_]+\\b,?)(.*)\\1(.*)");  
Matcher matcher = p.matcher(s);  
  
while(matcher.find()){  
    s = matcher.replaceAll("$1$2$3");  
    System.out.println(s);  
    matcher = p.matcher(s);  
}  
if(s.endsWith(","))  
    s = s.substring(0,s.length()-1);  
  
String expect = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,NAME,PPQ,SPQ,CODE";  
Assert.assertEquals(expect, s.substring(0,s.length()-1));  
验证结果为预期结果。
 
本来以为到这里就已经结束了,可系统刚运行了一会,就报出了错误,跟踪发现,当要处理的字符串为:
 
"D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,"时,执行的结果会把“DF_CLEARANCE_TAG_ID”替换成“DF_CLEARANCE_TAG_”,这可不是我要的结果!
 
经改进后的正则表达式为:(\b[\w|_]+\b,?)(.*)\b\1\b (.*),再次测试,结果完全满足要求。
 
 
 
 
 
补充:软件开发 , Java ,
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,