MFC中用正则表达式进行有效性验证


　　正则表达式最实用的一个地方是验证用户输入。它可以轻松验证邮编、电话号码、信用卡号码——以及现实世界中各种类型的信息。一个正则表达式可以替换成打甚至上百行过程代码。UNIX 和 Web 编程语言如 Perl从一开始就有正则表达式，但在 Windows 世界或MFC，从来都是使用第三方库，一直到 .NET 框架才结束这个局面。因此现在 .NET 提供一个完整的正则表达式库，为什么不在MFC应用程序中使用它呢？利用 RegexWrap 库，你甚至都不需要托管扩展或 /clr。

　　 MFC 已经具备一种称为“对话框数据交换”（Dialog Data Exchange，即 DDX）以及“对话框数据验证”（Dialog Data Validation，即 DDV）的机制来验证对话框输入。从技术上讲，DDX 只是在屏幕和你的对话框对象之间传输数据，而 DDV 才验证数据。当你从对话框的 OnOK 处理例程中调用 UpdateData 时 DDX 才开始工作。 

// user pressed OK:
void CMyDialog::OnOK() {
　 UpdateData(TRUE); // 获得对话框数据
　 ...
}
　　 UpdateData 是一个虚拟 CWnd 函数，你可以在自己的对话框中重写这个函数。其布尔型（Boolean）参数告知是将信息拷贝到屏幕还是相反从屏幕拷贝信息。（你可以在 OnInitDialog 中调用 UpdateData(FALSE)以便初始化对话框）。默认的 CWnd 实现创建一个 CDataExchange 对象并将它传递到另一个虚拟函数，DoDataExchange，你得重写这个函数去调用专门的 DDX 函数来为单独的数据成员传递数据：

void CMyDialog::DoDataExchange(CDataExchange* pDX) {
　 CDialog::DoDataExchange(pDX);
　 DDX_Text(pDX, IDC_NAME, m_name);
　 DDX_Text(pDX, IDC_AGE, m_age);
　 ...
　 // etc.
}
　　 这里 IDC_NAME 和 IDC_AGE 是编辑控制的 IDs，m_name 和 m_age 分别是 CString 和 int 数据成员。DDX_Text 将用户输入的 Name 和 Age 拷贝到 m_name 和 m_age（用一个重载顺便将 Age 转变成 int）。DDX 函数知道走哪条路，因为当从屏幕拷贝到对话框时，CDataExchange::m_bSaveAndValidate 为 TRUE，反之则为 FALSE。MFC 为各种数据和控制类型加载 DDX 函数。例如，DDX_Text 至少有一些重载函数用来将输入文本拷贝和转换成不同的类型，如 CString、int、double、COleCurrency 等等。DDX_Check 用来将复选框的状态转换成整型值，DDX_Radio 则对单选按钮做同样的事情。

　　 DDX 函数传输数据；DDV 函数则验证它。例如，为了限制用户名称为 35个字符，你可以这样做：

// in CMyDialog::DoDataExchange
DDX_Text(pDX, IDC_NAME, m_sName); // 获得/设置值
DDV_MaxChars(pDX, m_sName, 35); // 验证
　　 为了限定你的用户年龄为 1-120之间的一个整数，你可以这样写：

// m_age is int
DDX_Text(pDX, IDC_AGE, m_age);
DDV_MinMaxInt(pDX, m_age, 1, 120);
　　 虽然 DDX 工作表现得很好，DDV 是不免有点老土。MFC 在有效性验证方面所能做到的很有限。你可以在文本域中限制数字字符，不同类型的最小/最大约束。最小/最大是不错，但如果你想验证邮编或电话号码怎么办？MFC 对此无能为力。你不得不编写自己的 DDV 函数。当我第一次用正则表达式实现有效性验证时，我只要写一个函数即可，就像这样：
　
void DDV_Regex(CDataExchange* pDX, CString& val,
LPCTSTR pszRegex)
{
　 if (pDX->m_bSaveAndValidate) {
　　 CMRegex r(pszRegex);
　　 if (!r.Match(val).Success()) {
　　　 pDX->Fail(); // throws exception
　　 }
　 }
}
　　 这使你很容易象下面这样用正则表达式验证输入：

// in CMyDialog::DoDataExchange
DDX_Text(pDX, IDC_ZIP, m_zip);
DDV_Regex(pDX, m_zip,_T("^\d{5}(-\d{4})?$"));
　　 好酷啊，仅用四行代码就搞掂。（当然，那要假设你有 RegexWrap——否则你得使用托管扩展直接调用框架 Regex 类。）DDV_Regex 在 MFC 的 DDX/DDV 方案中工作表现很完美，但是当我开始添加更多的域时，我马上发现一些 DDX/DDV 的主要缺点，其一，如果域输入无效，则每个 DDV 函数都显示一个出错消息框并丢出异常，那么要是有五个无效域，用户就会看到五个消息框——真实糟透了！此外，在对 DDV 的调用中，我不想将正则表达式写死在代码中。但我拒绝 DDX/DDV 的主要理由是它太程序化。为了验证新的域，你不得不添加另外的数据成员以及在 DoDataExchange 加更多的代码，不久这个函数便膨胀臃肿，就像下面这样：

DDX_Text(pDX, IDC_FOO,...);
DDV_Mumble(pDX, ...)
DDX_Text(pDX, IDC_BAR,...);
DDV_Bletch(...)
... // etc for 14 lines
　　 为什么我非得要墨守成规编写过程指令来描述固有的验证规则呢？我的五条编程最高准则之一是：拒斥程序化代码。另一个是：一个表格胜过一千行代码。你肯定猜到我要干什么了。最终，我编写自己的对话框验证系统，一个基于规则的、表格驱动的验证系统。它依靠在 DDX 的最上层，但废掉了 DDV 并有好得多的用户接口。当然，它还易于使用，借助正则表达式进行验证。所有细节都封装在一个类中，CRegexForm，你可以在任何 MFC 对话框中使用这个类。


Figure 1 TestForm 里的工具提示 
　与往常一样，我编写了一个测试程序来示范它的工作原理。初看起来，TestForm 有点像再平常不过的基于 MFC 的对话框程序。它的主对话框中有几个编辑框——邮编、SSN（社会保险号），电话号码等。但当你通过对 TestForm 的测试，你会很快认识到它蕴含着许多玄机。如果你用tab键在输入域间移动，TestForm 会显示一个工具提示，它描述在这个输入域能输入什么（如图 Figure 1）。如果你敲入了一个非法字符——例如，在电话号码输入域敲入一个字符——TestForm 将拒绝接受该字符并发出蜂鸣声。当你按下确认键或OK键，你会得到一个描述所有无效输入域的出错信息框，如图 Figure 2 所示。所有的错误都显示在一个消息框中，而不是每个错误一个消息框。接着当用户tab到其中一个无效输入域时，TestForm 会再次在对话框本身的一个应用程序提供的“反馈”窗口内显示出错信息（如 Figure 3），因此用户不必记住错误信息所描述的内容，当他们更正每个无效输入域时，窗体会提醒他们。如果只有一个输入域无效，TestForm 会放弃消息框而直接在“反馈”窗口显示错误信息。


Figure 2 集中显示出错的输入域
　　 所有这些神奇的特性都是由 CRegexForm 自己实现的。你只需使用它即可，使用方法相当直白，首先你得定义一个自己窗体。下面是 TestForm 的窗体内容，这些定义位于 MainDlg.cpp：

// form/field map
BEGIN_REGEX_FORM(MyRegexForm)
RGXFIELD(IDC_ZIP,RGXF_REQUIRED,0)
RGXFIELD(IDC_SSN,0,0)
RGXFIELD(IDC_PHONE,0,0)
RGXFIELD(IDC_TOKEN,0,0)
RGXFIELD(IDC_PRIME,RGXF_CALLBACK,0)
RGXFIELD(IDC_FAVCOL,0,CMRegex::IgnoreCase)
END_REGEX_FORM()
　　 这个宏定义了一个静态表格，表格描述每个编辑控制域。大多数情况下你只需要控制 ID，还要有地方放标志和 RegexOptions。例如，在 TestForm 中，邮政编码是必输域（RGXF_REQUIRED），质数（Prime Number）输入域使用回调（稍后会详细讨论），最喜爱的专栏作家（IDC_FAVCOL）指定 CMRegex::IgnoreCase，它使得大小写 不敏感。


Figure 3 Pietrek? I Think Not!
　　 看着表格你可能想知道正则表达式在哪。回答是：在资源文件中。对于每个域/控制ID，CRegexForm 都期望有一个具有相同ID的资源串。资源串由五个子串组成，子串之间用新行符（
）分隔。一般格式为：
“Name
Regex
LegalChars
Hint
ErrMsg”。以下是 IDC_ZIP 所用的串：

　"Zip Code
^\d{5}(-\d{4})?$
[\d-]
##### or #####-####"
　　 第一个子串“Zip Code”是域名。第二个“^d{5}(-d{4})?$”，是用于验证邮编的正则表达式。（在资源串中必须敲入两个反斜线，目的是转义正则表达式中反斜线）。第三个子串是另外一个正则表达式，用来描述合法字符。对于邮编来说，即是“[d-]”，意思是允许数字和连字符（hyphen）。如果输入域无字符限制，你可以通过敲入两个连续的新行符（“

”意思是空子串）省略 LegalChars 检查。第四个子串全部为工具提示串。最后你可以提供第五个子串，如果该输入域无效则显示错误信息。对于邮编来说，它没有错误信息，所以 CRegexForm 产生一个默认的信息，形式为“Should be xxx”，xxx 被工具提示替代。“Should be”本身即是另一个资源串（稍后还要说到）。这些子串中，只有第一个域是必输域。

　　 为什么用资源串来保存所有信息，而不直接在域映射中编码处理呢？首先，将它放在映射中使得代码很笨拙。把这些乱七八糟的字符串放在不显眼的地方有利于代码更整洁。此外宏无法处理可选参数，根据你所用参数的多少，你需要多个宏，如：RGXFIELD3、RGXFIELD4 和 RGXFIELD5。这样不是太笨拙了嘛？使用资源串真正的好处在于容易本地化

补充：软件开发 , C语言 ,