百万负载之SQL数据库的优化
在考虑一个网站如果承载日百万甚至千万pv时,我们往往本能的往两个方向考虑:静态化及分布式。 固然,对于新浪等门户类型的网站来说,静态化+读写分离及分布式,可以解决大多数的问题。可是我们面临的更多的,可能是大数据+高并发+实时读取,而静态化的固定性便很难解决这个问题。
比如矮个芝麻最近接到的一个电子商务类的网站,流量大,数据量大,同时要求实时更新,因为首页以及内容页往往每时每刻都在变化着。 这个时候我们就不得不查询数据库,也就需要针对数据库作出一些特定的优化。
优化建议:
1)表结构的优化
通过对表结构的优化,往往可以直接的降低数据库的压力。常见的方法比如建索引,拆表,适当冗余扁平化。 索引的作用最为直接,通过B+树轻松实现类似于将一张表划分为几百张表的效果,在进行查询时,往往链表查询需要十万次才能查询到的数据,加了索引之后或许只需要四次就可以解决。
当然不要过分的增加索引,因为会一定程度上增加数据库的负担。 同时说一个很有意思的问题,如何实现身份证查询系统?我们往往知道,身份证的前几位决定了这个人的所在地,出生年月等可见信息,然后才是几位随机数。而且应该有发现一个问题,那就是只有在户口所在地才能登记身份证,这就是拆表查询。易做图系统只需要查询当地数据库下该生日及随机数是否有重复,就可以判断全国是否有重复的身份证了。
最常用的方法是,将一个月内的活跃用户单独设为一个表,这样每次用户登录,其实只是查询了当月的用户,可以有效的提高查询效率.
2)sql语句的优化
sql语句的优化往往要直白很多,就是尽量减少like查询,关联查询等资源消耗比较大,查询量比较大的sql语句,即可,整理了几条如下:
1.减少不必要的like查询,尽量通过建关键词表实现like查询的效果
2.减少关联查询,尽量通过左链接右链接的形式实现查询
3.复杂的查询语句使用储存过程解决.
4.减少不必要的查询.
5.避免在索引列上使用IS NULL和IS NOT NULL
6.尽量避免使用耗费资源的操作:带有DISTINCT,UNION,MINUS,INTERSECT,ORDER BY的SQL语句会启动SQL引擎
7.不要使用SELECT *,尽量指明要显示的列
8.不要使用INSERT导入大批的数据 请不要这样做,除非那是必须的。使用UTS或者BCP,这样你可以一举而兼得灵活性和速度。
3)程序段的优化尤为重要
程序段根据不同的用户需求进行优化,尤为重要.
最常见的案例就是,当查询列表时,只查询出标题名及简介就可以解决问题.当用户打开该文章后,才会查询该文章的文章内容,评论,发表人信息等关联表的内容.这样可以在很大程度上降低程序的负担.
尽量通过ajax,在有必要的情况下进行后台查询,而不是在打开页面的时候就进行相关的查询.
另外,最为重要的一点就是,尽量实现静态化.
一般对于cms类型的网站来说,静态化可以解决大多数的问题.而后需要查询数据库的无非就是搜索,用户会员中心的相关操作.
而搜索是可以通过读写分离异步操作的,这样就可以有效的降低服务器的压力.
当然,还有更多更有效的方法,只是今天突然兴起整理一下,有问题可以和矮个芝麻一起沟通哦~