MySQL的使用場景中,讀寫分離只是方案中的一部分,想要擴展,勢必會用到分庫分表,可喜的是Mycat里已經做到了,今天花時間測試了一下,感覺還不錯。
關于分庫分表
當然自己也理了一下,分庫分表的這些內容,如果分成幾個策略或者階段,大概有下面的幾種。
最上面的第一種是直接拆表,比如數據庫db1下面有test1,test2,test3三個表,通過中間件看到的還是表test,里面的數據做了這樣的拆分,能夠在一定程度上分解壓力,如果細細品來,和分區表的套路有些像。
接下來的幾類也是不斷完善,把表test拆解到多個庫中,多個服務器中,如果做了讀寫分離,全套的方案這樣的拆解改進還是很大的。如此來看,數據庫中間件做了很多應用和數據庫之間的很多事情,能夠流行起來除了技術原因還是有很多其他的因素。
分庫分表的測試環境模擬
如果要在一臺服務器上測試分庫分表,而且要求架構方案要全面,作為技術可行性的一個判定參考,是否可以實現呢。
如果模擬一主兩從的架構,模擬服務分布在3臺服務器上,這樣的方案需要創建9個實例,每個實例上有3個db需要分別拆分。
大體的配置如下:
master1: 端口33091
(m1)slave1: 端口33092
(m1)slave2: 端口33093
master2: 端口33071
(m2)slave1: 端口33072
(m2)slave2: 端口33073
master3: 端口33061
(m3)slave1: 端口33062
(m3)slave2: 端口33063
畫個圖來說明一下,其中db1,db2,db3下面有若干表,需要做sharding
所以我們需要模擬的就是這個事情。
使用Mycat碰到的幾個小問題解惑
使用Mycat的時候碰到了幾個小問題,感覺比較有代表性,記錄了一下。
問題1:
首先是使用Mycat連接到數據庫之后,如果不切換到具體的數據庫下,使用[數據庫名].[表名]的方式會拋出下面的錯誤,可見整個過程中,Mycat攔截了SQL信息做了過濾,在轉換的時候找不到目標路由。當然實際使用中,規范使用肯定不會有這個問題。
mysql> select * from db1.shard_auto;
ERROR 1064 (HY000): find no Route:select * from db1.shard_auto
問題2:
在配置了sharding策略之后,insert語句拋出了下面的錯誤,這個是對語法的一個基本的要求。
mysql> insert into shard_mod_long values(1,'aa',date);
ERROR 1064 (HY000): partition table, insert must provide ColumnList
問題3:
如果sharding策略配置有誤,很可能出現表訪問正常,但是DML會有問題,提示數據沖突了。至于如何配置sharding,下面會講。
mysql> select * from shard_mod_long;
Empty set (0.00 sec)
mysql> insert into shard_mod_long(ID,name,shard_date) values(1,'aa',current_date);
ERROR 1105 (HY000): Duplicate entry '1' for key 'PRIMARY'
問題4:
如果sharding的配置有誤,很可能出現多份冗余數據。
查看執行計劃就一目了然,通過data_node可以看到數據指向了多個目標庫。
mysql> explain insert into shard_auto(ID,name,shard_date) values(1,'aa',current_date);
+-----------+------------------------------------------------+
DATA_NODE | SQL
+-----------+------------------------------------------------+
pxcNode11 | insert into shard_auto(ID,name,shard_date) values(1,'aa',current_date)
pxcNode21 | insert into shard_auto(ID,name,shard_date) values(1,'aa',current_date)
pxcNode31 | insert into shard_auto(ID,name,shard_date) values(1,'aa',current_date)
+-----------+------------------------------------------------+
這種情況如果有一定的需求還是蠻不錯的,做sharding可惜了。問題就在于下面的這個table配置。
<table name="shard_auto" primaryKey="ID" type="global" dataNode="pxcNode11,pxcNode21,pxcNode31" rule="auto-sharding-long" />
需要去掉 type="global"的屬性,讓它sharding。
Mycat里面的sharding策略
Mycat的分片策略很豐富,這個是超出自己的預期的,也是Mycat的一大亮點。
大體分片規則如下,另外還有一些其他分片方式這里不全部列舉:
(1)分片枚舉:sharding-by-intfile
(2)主鍵范圍:auto-sharding-long
(3)一致性hash:sharding-by-murmur
(4)字符串hash解析:sharding-by-stringhash
(5)按日期(天)分片:sharding-by-date
(6)按單月小時拆分:sharding-by-hour
(7)自然月分片:sharding-by-month
在開始之前,我們要創建下面的表來模擬幾個sharding的場景,表名根據需求可以改變。
create table shard_test(ID int primary key, name varchar(20),shard_date date);
主鍵范圍分片
主鍵范圍分片是參考了主鍵值,按照主鍵值的分布來分布數據庫在不同的庫中,我們先在對應的sharding節點上創建同樣的表結構。
關于sharding的策略,需要修改rule.xml文件。
常用的sharding策略已經在Mycat里面實現了,如果要自行實現也可以定制。比如下面的規則,是基于主鍵字段ID來做sharding,分布的算法是rang-long,引用了function rang-long,這個function是在對應的一個Java類中實現的。
<tableRule name="auto-sharding-long">
<rule>
<columns>ID</columns>
<algorithm>rang-long</algorithm>
</rule>
<function name="rang-long"
class="io.mycat.route.function.AutoPartitionByLong">
<property name="mapFile">autopartition-long.txt</property>
當然主鍵的范圍是不固定的,可以根據需求來定制,比如按照一百萬為單位,或者1000位單位,文件是 autopartition-long.txt 文件的內容默認如下,模板里是分為了3個分片,如果要定制更多的就需要繼續配置了,目前來看這個配置只能夠承載15億的數據量,可以根據需求繼續擴展定制。
# range start-end ,data node index
# K=1000,M=10000.
0-500M=0
500M-1000M=1
1000M-1500M=2
插入一些數據來驗證一下,我們可以查看執行計劃來做基本的驗證,配置無誤,數據就根據規則流向了指定的數據庫下的表里。
mysql> explain insert into shard_auto(ID,name,shard_date) values(1,'aa',current_date);
+-----------+------------------------------------------------+
DATA_NODE | SQL
+-----------+------------------------------------------------+
pxcNode11 | insert into shard_auto(ID,name,shard_date) values(1,'aa',current_date)
+-----------+------------------------------------------------+
還有一個查看sharding效果的小方法,比如我插入一個極大的值,保證和其他數據不在一個分片上,我們運行查詢語句兩次,結果會有點變化。
sharing的效果
mysql> select * from shard_auto;
+---------+------+------------+
ID | name | shard_date
+---------+------+------------+
1 | aa | 2017-09-06
2 | bb | 2017-09-06
5000001 | aa | 2017-09-06
+---------+------+------------+
3 rows in set (0.00 sec)
稍作停頓,繼續運行。
mysql> select * from shard_auto;
+---------+------+------------+
ID | name | shard_date
+---------+------+------------+
5000001 | aa | 2017-09-06
1 | aa | 2017-09-06
2 | bb | 2017-09-06
+---------+------+------------+
3 rows in set (0.01 sec)
Hash分片
Hash分片其實企業級應用尤其廣泛,我覺得一個原因是通過這種數據路由的方式,得到的數據情況是基本可控的,和業務的關聯起來比較直接。很多拆分方法都是根據mod方法來平均分布數據。
sharding的策略在rule.xml里面配置,還是默認的mod-long規則,引用了算法mod-long,這里是根據sharding的節點數來做的,默認是3個。
<tableRule name="mod-long">
<rule>
<columns>id</columns>
<algorithm>mod-long</algorithm>
</rule>
</tableRule>
<function name="mod-long" class="io.mycat.route.function.PartitionByMod">
<!-- how many data nodes -->
<property name="count">3</property>
</function>
比如查看兩次insert的結果情況。
mysql> explain insert into shard_mod_long(ID,name,shard_date) values(4,'dd',current_date);
+-----------+------------------------------------------------+
DATA_NODE | SQL
+-----------+------------------------------------------------+
pxcNode22 | insert into shard_mod_long(ID,name,shard_date) values(4,'dd',current_date)
+-----------+------------------------------------------------+
mysql> explain insert into shard_mod_long(ID,name,shard_date) values(5,'ee',current_date);
+-----------+------------------------------------------------+
DATA_NODE | SQL
+-----------+------------------------------------------------+
pxcNode23 | insert into shard_mod_long(ID,name,shard_date) values(5,'ee',current_date)
+-----------+------------------------------------------------+
可以看到數據還是遵循了節點的規律,平均分布。
至于schema.xml的配置,是整個分庫的核心,我索性也給出一個配置來,供參考。
<?xml version="1.0"?>
<!DOCTYPE mycat:schema SYSTEM "schema.dtd">
<mycat:schema xmlns:mycat="http://io.mycat/">
<!-- 定義MyCat的邏輯庫 -->
<schema name="db1" checkSQLschema="false" sqlMaxLimit="100" >
<table name="shard_mod_long" primaryKey="ID" type="global" dataNode="pxcNode11,pxcNode21,pxcNode31" rule="mod-long" />
<table name="shard_auto" primaryKey="ID" type="global" dataNode="pxcNode11,pxcNode21,pxcNode31" rule="auto-sharding-long" />
</schema>
<!-- 定義MyCat的數據節點 -->
<dataNode name="pxcNode11" dataHost="dtHost" database="db1" />
<dataNode name="pxcNode21" dataHost="dtHost2" database="db1" />
<dataNode name="pxcNode31" dataHost="dtHost3" database="db1" />
<!-- 定義數據主機dtHost,連接到MySQL讀寫分離集群 ,schema中的每一個dataHost中的host屬性值必須唯一-->
<!-- dataHost實際上配置就是后臺的數據庫集群,一個datahost代表一個數據庫集群 -->
<!-- balance="1",全部的readHost與stand by writeHost參與select語句的負載均衡-->
<!-- writeType="0",所有寫操作發送到配置的第一個writeHost,這里就是我們的hostmaster,第一個掛了切到還生存的第二個writeHost-->
<dataHost name="dtHost" maxCon="500" minCon="20" balance="1"
writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<!--心跳檢測 -->
<heartbeat>show slave status</heartbeat>
<!--配置后臺數據庫的IP地址和端口號,還有賬號密碼 -->
<writeHost host="hostMaster" url="192.168.163.128:33091" user="mycat_user" password="mycat" />
</dataHost>
<dataHost name="dtHost2" maxCon="500" minCon="20" balance="1"
writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<!--心跳檢測 -->
<heartbeat>show slave status</heartbeat>
<!--配置后臺數據庫的IP地址和端口號,還有賬號密碼 -->
<writeHost host="hostMaster" url="192.168.163.128:33071" user="mycat_user" password="mycat" />
</dataHost>
<dataHost name="dtHost3" maxCon="500" minCon="20" balance="1"
writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<!--心跳檢測 -->
<heartbeat>show slave status</heartbeat>
<!--配置后臺數據庫的IP地址和端口號,還有賬號密碼 -->
<writeHost host="hostMaster" url="192.168.163.128:33061" user="mycat_user" password="mycat" />
</dataHost>
</mycat:schema>
=================================================================================================
用Mycat,學會數據庫讀寫分離、分表分庫
php疑難雜癥鋪 2017-09-13 14:31用Mycat,學會數據庫讀寫分離、分表分庫
系統開發中,數據庫是非常重要的一個點。除了程序的本身的優化,如:SQL語句優化、代碼優化,數據庫的處理本身優化也是非常重要的。主從、熱備、分表分庫等都是系統發展遲早會遇到的技術問題問題。Mycat是一個廣受好評的數據庫中間件,已經在很多產品上進行使用了。希望通過這篇文章的介紹,能學會Mycat的使用。
安裝
Mycat官網:http://www.mycat.io/
可以了解下Mycat的背景和應用情況,這樣使用起來比較有信心。
Mycat下載地址:http://dl.mycat.io/
官網有個文檔,屬于詳細的介紹,初次入門,看起來比較花時間。
下載:
建議大家選擇 1.6-RELEASE 版本,畢竟是比較穩定的版本。
安裝:
根據不同的系統選擇不同的版本。包括linux、windows、mac,作者考慮還是非常周全的,當然,也有源碼版的。(ps:源碼版的下載后,只要配置正確,就可以正常運行調試,這個贊一下。)
Mycat的安裝其實只要解壓下載的目錄就可以了,非常簡單。
安裝完成后,目錄如下:
目錄說明binmycat命令,啟動、重啟、停止等catletcatlet為Mycat的一個擴展功能confMycat 配置信息,重點關注libMycat引用的jar包,Mycat是java開發的logs日志文件,包括Mycat啟動的日志和運行的日志。配置
Mycat的配置文件都在conf目錄里面,這里介紹幾個常用的文件:
文件說明server.xmlMycat的配置文件,設置賬號、參數等schema.xmlMycat對應的物理數據庫和數據庫表的配置rule.xmlMycat分片(分庫分表)規則Mycat的架構其實很好理解,Mycat是代理,Mycat后面就是物理數據庫。和Web服務器的Nginx類似。對于使用者來說,訪問的都是Mycat,不會接觸到后端的數據庫。
我們現在做一個主從、讀寫分離,簡單分表的示例。結構如下圖:
服務器IP說明Mycat192.168.0.2mycat服務器,連接數據庫時,連接此服務器database1192.168.0.3物理數據庫1,真正存儲數據的數據庫database2192.168.0.4物理數據庫2,真正存儲數據的數據庫Mycat作為主數據庫中間件,肯定是與代碼弱關聯的,所以代碼是不用修改的,使用Mycat后,連接數據庫是不變的,默認端口是8066。連接方式和普通數據庫一樣,如:jdbc:mysql://192.168.0.2:8066/
server.xml
示例
重點關注下面這段,其他默認即可。
參數說明user用戶配置節點--name登錄的用戶名,也就是連接Mycat的用戶名--password登錄的密碼,也就是連接Mycat的密碼--schemas數據庫名,這里會和schema.xml中的配置關聯,多個用逗號分開,例如需要這個用戶需要管理兩個數據庫db1,db2,則配置db1,dbs--privileges配置用戶針對表的增刪改查的權限,具體見文檔吧我這里配置了一個賬號test 密碼也是test,針對數據庫lunch,讀寫權限都有,沒有針對表做任何特殊的權限。
schema.xml
schema.xml是最主要的配置項,首先看我的配置文件。
參數說明schema數據庫設置,此數據庫為邏輯數據庫,name與server.xml中schema對應dataNode分片信息,也就是分庫相關配置dataHost物理數據庫,真正存儲數據的數據庫每個節點的屬性逐一說明:
schema:
屬性說明name邏輯數據庫名,與server.xml中的schema對應checkSQLschema數據庫前綴相關設置,建議看文檔,這里暫時設為folsesqlMaxLimitselect 時默認的limit,避免查詢全表table:
屬性說明name表名,物理數據庫中表名dataNode表存儲到哪些節點,多個節點用逗號分隔。節點為下文dataNode設置的nameprimaryKey主鍵字段名,自動生成主鍵時需要設置autoIncrement是否自增rule分片規則名,具體規則下文rule詳細介紹dataNode
屬性說明name節點名,與table中dataNode對應datahost物理數據庫名,與datahost中name對應database物理數據庫中數據庫名dataHost
屬性說明name物理數據庫名,與dataNode中dataHost對應balance均衡負載的方式writeType寫入方式dbType數據庫類型heartbeat心跳檢測語句,注意語句結尾的分號要加。應用場景
數據庫分表分庫
配置如下:
我在192.168.0.2、192.168.0.3均有數據庫lunch。
lunchmenu、restaurant、userlunch、users這些表都只寫入節點dn1,也就是192.168.0.2這個服務,而dictionary寫入了dn1、dn2兩個節點,也就是192.168.0.2、192.168.0.3這兩臺服務器。分片的規則為:mod-long。
主要關注rule屬性,rule屬性的內容來源于rule.xml這個文件,Mycat支持10種分表分庫的規則,基本能滿足你所需要的要求,這個必須贊一個,其他數據庫中間件好像都沒有這么多。
table中的rule屬性對應的就是rule.xml文件中tableRule的name,具體有哪些分表和分庫的實現,建議還是看下文檔。我這里選擇的mod-long就是將數據平均拆分。因為我后端是兩臺物理庫,所以rule.xml中mod-long對應的function count為2,見下面部分代碼:
數據庫讀寫分離
配置如下:
這樣的配置與前一個示例配置改動如下:
刪除了table分配的規則,以及datanode只有一個
datahost也只有一臺,但是writehost總添加了readhost,balance改為1,表示讀寫分離。
以上配置達到的效果就是102.168.0.2為主庫,192.168.0.3為從庫。
注意:Mycat主從分離只是在讀的時候做了處理,寫入數據的時候,只會寫入到writehost,需要通過mycat的主從復制將數據復制到readhost,這個問題當時候我糾結了好久,數據寫入writehost后,readhost一直沒有數據,以為是自己配置的問題,后面才發現Mycat就沒有實現主從復制的功能,畢竟數據庫本身自帶的這個功能才是最高效穩定的。
至于其他的場景,如同時主從和分表分庫也是支持的了,只要了解這個實現以后再去修改配置,都是可以實現的。而熱備及故障專業官方推薦使用haproxy配合一起使用,大家可以試試。
使用
Mycat的啟動也很簡單,啟動命令在Bin目錄:
如果在啟動時發現異常,在logs目錄中查看日志。
wrapper.log 為程序啟動的日志,啟動時的問題看這個
mycat.log 為腳本執行時的日志,SQL腳本執行報錯后的具體錯誤內容,查看這個文件。mycat.log是最新的錯誤日志,歷史日志會根據時間生成目錄保存。
mycat啟動后,執行命令不成功,可能實際上配置有錯誤,導致后面的命令沒有很好的執行。
Mycat帶來的最大好處就是使用是完全不用修改原有代碼的,在mycat通過命令啟動后,你只需要將數據庫連接切換到Mycat的地址就可以了。如下面就可以進行連接了:
連接成功后可以執行sql腳本了。
所以,可以直接通過sql管理工具(如:navicat、datagrip)連接,執行腳本。我一直用datagrip來進行日常簡單的管理,這個很方便。
Mycat還有一個管理的連接,端口號是9906.
連接后可以根據管理命令查看Mycat的運行情況,當然,喜歡UI管理方式的人,可以安裝一個Mycat-Web來進行管理,有興趣自行搜索。
簡而言之,開發中使用Mycat和直接使用Mysql機會沒有差別。
常見問題
使用Mycat后總會遇到一些坑,我將自己遇到的一些問題在這里列一下,希望能與大家有共鳴:
Mycat是不是配置以后,就能完全解決分表分庫和讀寫分離問題?
Mycat配合數據庫本身的復制功能,可以解決讀寫分離的問題,但是針對分表分庫的問題,不是完美的解決。或者說,至今為止,業界沒有完美的解決方案。
分表分庫寫入能完美解決,但是,不能完美解決主要是聯表查詢的問題,Mycat支持兩個表聯表的查詢,多余兩個表的查詢不支持。 其實,很多數據庫中間件關于分表分庫后查詢的問題,都是需要自己實現的,而且節本都不支持聯表查詢,Mycat已經算做地非常先進了。
分表分庫的后聯表查詢問題,大家通過合理數據庫設計來避免。
Mycat支持哪些數據庫,其他平臺如 .net、PHP能用嗎?
官方說了,支持的數據庫包括MySQL、SQL Server、Oracle、DB2、PostgreSQL 等主流數據庫,很贊。
盡量用Mysql,我試過SQL Server,會有些小問題,因為部分語法有點差異。
Mycat 非JAVA平臺如 .net、PHP能用嗎?
可以用。這一點MyCat做的也很棒。