什么是索引?
索引是數(shù)據(jù)庫快速找到記錄行的一種數(shù)據(jù)結(jié)構(gòu),類似我們看書時(shí)的目錄,它是良好性能的關(guān)鍵因素。尤其是表中的數(shù)據(jù)量越來越大時(shí),如果索引使用不當(dāng),會(huì)嚴(yán)重影響性能。索引也是最常見的數(shù)據(jù)庫優(yōu)化手段,它能輕易的將查詢性能提高好幾個(gè)量級。
MySQL索引類型?mysql索引數(shù)據(jù)是存儲(chǔ)在存儲(chǔ)引擎中的,所以不同存儲(chǔ)引擎中索引的工作方式并不一樣。
B-Tree索引:基于B+樹(一種多叉搜索數(shù)樹)來實(shí)現(xiàn)的索引類型,一般也是使用的最多的索引類型,之所以選擇B+樹而不是其他數(shù)據(jù)結(jié)構(gòu),是因?yàn)锽+樹在查詢時(shí)間復(fù)雜度可以維持在O(logn)的級別上,由于B+的矮胖(從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的距離可以維持在較小范圍)特性減少磁盤IO次數(shù)、數(shù)據(jù)只存在葉子節(jié)點(diǎn)中并且按順序存儲(chǔ)也可以支持快速的范圍查詢,這是其他結(jié)構(gòu)無法滿足的!
B+索引中值是按順序存儲(chǔ)的,葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的距離都相同,從B+樹的根節(jié)點(diǎn)開始往下查找,節(jié)點(diǎn)存儲(chǔ)了指向葉子節(jié)點(diǎn)的指針,通過將要查找的值和每個(gè)節(jié)點(diǎn)值比較后,一層層定位到最終的葉子結(jié)點(diǎn)上,葉子節(jié)點(diǎn)存儲(chǔ)的就是行數(shù)據(jù)、指針或主鍵。
假如我們索引列是:
key(lastname(姓),firstname(名),born),可以使用B+樹索引的查詢類型包括:全鍵值、鍵值范圍、鍵前綴查找,其中鍵前綴只適用于最左前綴查找:
全值匹配:指的是和索引中所有的列進(jìn)行匹配,如可以找到姓名為:Cuba(名) Allen(姓) 、生于1988-10-04的人,如where lastname=‘Allen’ and firstname=‘Cuba’ and born='1988-10-04'匹配最左前綴:可以查找姓為Allen的人,如where lastname=‘Allen’匹配列前綴:也可以匹配某一列的值的開頭部分,如where lastname like ‘A%’ 或者where firstname like ‘M%’匹配范圍:可以匹配姓在Allen和Bill之間的人精確匹配某一列并匹配另外一列:查找所有姓為Allen、并且名字是以M開頭的人,如where lastname=‘Allen’ and firstname like ‘M%’訪問索引數(shù)據(jù):這種查詢只需要訪問索引本身就行了,不需要訪問數(shù)據(jù)行,也就是常說的索引覆蓋,舉個(gè)例子:如果只需要找到姓為Allen的人的名稱, 而不需要這個(gè)人其他的信息,名稱就存在與索引中,不需要再去數(shù)據(jù)行中查找數(shù)據(jù)了。這里需要注意的是葉子節(jié)點(diǎn)存什么類型數(shù)據(jù)不同的存儲(chǔ)引擎還不一樣,在MyISAM中葉子節(jié)點(diǎn)存儲(chǔ)的是數(shù)據(jù)物理位置(指針),而InnoDB使用B+結(jié)構(gòu)存儲(chǔ)的是原始數(shù)據(jù)或主鍵,也就是我們常說的聚簇索引,它存儲(chǔ)的是原始全量數(shù)據(jù)、鍵值,聚簇索引指的是一種數(shù)據(jù)索引組織形式,它將數(shù)據(jù)和索引聚集在一起所以叫聚簇,它本身并不是一種索引類型。
一般InnoDB查找過程為從輔助索引上開始查找到數(shù)據(jù)主鍵,然后在主鍵索引中用主鍵再次查找,最后再找到數(shù)據(jù),雖然多了一次查找過程,但更新數(shù)據(jù)不會(huì)導(dǎo)致聚簇索引頻繁變化。而在MyISAM中不需要2次索引查找,因?yàn)槿~子節(jié)點(diǎn)存儲(chǔ)的是數(shù)據(jù)的物理地址可以直接定位,雖然查詢看似簡單了,但是物理地址會(huì)因?yàn)閿?shù)據(jù)頻繁變更而發(fā)生變化。
假設(shè)有以下數(shù)據(jù):
InnoDB(聚簇索引)數(shù)據(jù)查找過程:
MyISAM(非聚簇索引結(jié)構(gòu))數(shù)據(jù)查找過程:
哈希索引:基于哈希表來實(shí)現(xiàn)的索引類型,如果存在哈希沖突,索引會(huì)使用鏈表來存放多個(gè)記錄到一個(gè)哈希桶中。舉個(gè)例子:如果存在以下索引 key USING HASH(firstname),哈希索引會(huì)使用哈希函數(shù)計(jì)算出firstname列的哈希值作為key,并將行指針作為value存儲(chǔ),當(dāng)使用 =、IN()、<=>操作時(shí),先計(jì)算出sql語句操作查找值的哈希值,并使用其來查找哈希表對應(yīng)的行指針,從而返回?cái)?shù)據(jù)。
這里需要注意是:
哈希索引只存儲(chǔ)哈希值和行指針,索引索引本身沒有行數(shù)據(jù),也就沒有所謂的索引覆蓋。哈希索引沒有按哈希值的順序排列,所有不支持排序操作。不支持部分索引列的匹配,哈希索引使用你指定的全部列來計(jì)算哈希值,列入(A,B)如果查詢只有列A,則索引無發(fā)匹配。哈希索引只支持等值比較(=、in(),<=>)。哈希沖突較高時(shí),查找效率就變成了鏈表,復(fù)雜度從O(1)變?yōu)镺(n)。空間數(shù)據(jù)索引:MyISAM支持空間索引可以用來存儲(chǔ)地理數(shù)據(jù)。必須使用GIS相關(guān)函數(shù)如MBRCONUNTAINS()來維護(hù)數(shù)據(jù),因?yàn)楸旧韒ysql對GIS的支持下不完善,這中特性使用很少。
全文索引:這是一種特殊類型的索引,他查找的是索引列中文本的關(guān)鍵詞,而不是比較索引值,全文索引的使用要注意列的文本大小和數(shù)據(jù)量,它的匹配方式類似于搜索引擎。
索引的優(yōu)缺點(diǎn)?大大減少了服務(wù)器掃描表的數(shù)據(jù)量。避免不必要的排序和臨時(shí)表。將隨機(jī)IO變?yōu)轫樞騃O。對于非常小的表,全表掃描可能比索引更快,對于中型數(shù)據(jù)量表,索引將會(huì)非常有效,對于TB級別的表來說,索引的維護(hù)和效果可能沒有我們想象的那樣好,這是可以使用表分區(qū)、業(yè)務(wù)拆分表和分庫等技術(shù)。常見的索引優(yōu)化方式及注意事項(xiàng)?不要把索引的列納入表達(dá)式,也不能是函數(shù)參數(shù),如where aid+1=5、where to_days(col)<=10.選擇重復(fù)性較低的列建索引,重復(fù)性較高會(huì)導(dǎo)致索引失效,全表掃描。多列索引中很多常見的錯(cuò)誤是,喜歡為每個(gè)列創(chuàng)建獨(dú)立索引,實(shí)際上這是錯(cuò)誤的!要選擇合適的順序和列來合并索引,來看個(gè)簡單例子:表數(shù)據(jù)為:
分別建2個(gè)獨(dú)立索引:inx_name, inx_company :
現(xiàn)在執(zhí)行以下語句:
SELECT * from tuser where `name`='22' or company='bb'
結(jié)果顯示并沒有使用索引來查詢數(shù)據(jù):
現(xiàn)在加一個(gè)多列索引:inx_name_company
執(zhí)行同樣的sql顯示使用了多列索引:
不要在大文本字段建全量索引,這會(huì)然導(dǎo)致索引數(shù)據(jù)較大,查詢較慢,可以建一個(gè)前綴索引,例如//在city列上取前7個(gè)字符作為索引 mysql > alter table demo add key(city(7))
這是一種使索引更小,更快的方法,但缺點(diǎn)是無法使用綴索引order by或group by