Sqlite中文排序研究 (补充)


答案：[open source] 拼音排序函数库发布
  最近在做资源管理器的设计，SPEC要求中文文件名按拼音排序。于是花了点时间去研究关于拼音排序的问题，然后又花了两小时写了一个函数库。其实知道了原理，按拼音排序的实现很简单，放到这里供大家参考吧。
  我们知道，计算机中的每一个字符都有一个内码。在默认情况下，计算机排序时，比较两个字符的大小就是比较字符内码的大小，这对于英文来说没有问题，因为英文字母的内码是按字母顺序递增的。对于中文来说，就比较麻烦了：首先，中文的排序方式有多种，比如按内码排序、按拼音排序和按笔画排序，要通过参数指定排序的方式，否则计算机就按内码排序了。其次，汉字的内码顺序即不同于拼音顺序，也不同于按笔画顺序。在GB2312编码中，汉字基本上按拼音排序（据说有例外，不太清楚）。在GBK中，它在GB2312基础上进行了扩充，兼容GB2312中的所有字符，所以不是按拼音排序了。在Unicode中，汉字的排列似乎更没有什么规律可言了。
  为了解决内码顺序与用户习惯顺序(如拼音顺序)的冲突，在glibc的locale数据里，要求提供排序方式(collate)的描述。我看了一下glibc-2.3.5提供的locale数据，在简体中文(zh_CN)的locale数据描述里，关于排序方式的描述如下：
% ISO 14651 collation sequence
LC_COLLATE
copy "iso14651_t1"
END LC_COLLATE
  也就是说，照抄iso14651_t1的排序方式。打开iso14651_t1文件看了一下，也没有发现关于中文的特殊处理，可以推断glibc默认的排序方式就是按unicode排序。由此看来，glibc没有提供拼音排序功能，只能由我们自己去实现了。
  实现拼音排序其实很简单，我们可以先取出汉字的拼音然后再比较。这种方法
上一个：Nhibernate+SQLite 实例指南（1）
下一个：Sqlite中文排序研究(1)
更多图片编程知识: