邮件正文中手机号码,身份证等属性提取
如:现在有如下的邮件:尊敬的用户:
你的身份证为:433130156412268619
您在2013年01月17日 19点49分提交找回密码请求,请点击下面的链接修改用户的密码:
(如果您无法点击这个链接,请将此链接复制到浏览器地址栏后访问)
为了保证您帐号的安全性,该链接有效期为24小时,并且点击一次后将失效!
设置并牢记密码保护问题将更好地保障您的帐号安全。
如果您误收到此电子邮件,则可能是其他用户在尝试帐号设置时的误操作,如果您并未发起该请求,则无需再进行任何操作,并可以放心地忽略此电子邮件。
若您担心帐号安全,建议您立即登录,进入“我的12306”,密码修改中修改密码。
感谢您使用12306网上购票系统!
中国铁路客户服务中心 客服联系电话:13649875216
2013年01月17日
此邮件为自动发送,请勿回复!
我现在要提取出这个邮件中的身份证:433130156412268619 电话:13649875216
问题:由于邮件数目太大,用正则表达式极其慢
现在有两种思路:
1.在正则表达式的前提下,采用多线程,优化正则等(这个试过了,依然很慢)
2.找一种新的算法(努力后未果,靠大家了)
还有:sunday算法号称字符串查找最快,当好像不支持模糊匹配。
麻烦大家说下思路,不要贴代码
正则表达式 算法 --------------------编程问答-------------------- 超找数字个数是11、18或者17位(再取后面的一位字母,X或者Y)的字符串就行了。 --------------------编程问答-------------------- 连续的……
补充:Java , Java EE