什么是索引?
索引是數據庫快速找到記錄行的一種數據結構,類似我們看書時的目錄,它是良好性能的關鍵因素。尤其是表中的數據量越來越大時,如果索引使用不當,會嚴重影響性能。索引也是最常見的數據庫優化手段,它能輕易的將查詢性能提高好幾個量級。
MySQL索引類型?mysql索引數據是存儲在存儲引擎中的,所以不同存儲引擎中索引的工作方式并不一樣。
B-Tree索引:基于B+樹(一種多叉搜索數樹)來實現的索引類型,一般也是使用的最多的索引類型,之所以選擇B+樹而不是其他數據結構,是因為B+樹在查詢時間復雜度可以維持在O(logn)的級別上,由于B+的矮胖(從根節點到葉子節點的距離可以維持在較小范圍)特性減少磁盤IO次數、數據只存在葉子節點中并且按順序存儲也可以支持快速的范圍查詢,這是其他結構無法滿足的!
B+索引中值是按順序存儲的,葉子節點到根節點的距離都相同,從B+樹的根節點開始往下查找,節點存儲了指向葉子節點的指針,通過將要查找的值和每個節點值比較后,一層層定位到最終的葉子結點上,葉子節點存儲的就是行數據、指針或主鍵。
假如我們索引列是:
key(lastname(姓),firstname(名),born),可以使用B+樹索引的查詢類型包括:全鍵值、鍵值范圍、鍵前綴查找,其中鍵前綴只適用于最左前綴查找:
全值匹配:指的是和索引中所有的列進行匹配,如可以找到姓名為:Cuba(名) Allen(姓) 、生于1988-10-04的人,如where lastname=‘Allen’ and firstname=‘Cuba’ and born='1988-10-04'匹配最左前綴:可以查找姓為Allen的人,如where lastname=‘Allen’匹配列前綴:也可以匹配某一列的值的開頭部分,如where lastname like ‘A%’ 或者where firstname like ‘M%’匹配范圍:可以匹配姓在Allen和Bill之間的人精確匹配某一列并匹配另外一列:查找所有姓為Allen、并且名字是以M開頭的人,如where lastname=‘Allen’ and firstname like ‘M%’訪問索引數據:這種查詢只需要訪問索引本身就行了,不需要訪問數據行,也就是常說的索引覆蓋,舉個例子:如果只需要找到姓為Allen的人的名稱, 而不需要這個人其他的信息,名稱就存在與索引中,不需要再去數據行中查找數據了。這里需要注意的是葉子節點存什么類型數據不同的存儲引擎還不一樣,在MyISAM中葉子節點存儲的是數據物理位置(指針),而InnoDB使用B+結構存儲的是原始數據或主鍵,也就是我們常說的聚簇索引,它存儲的是原始全量數據、鍵值,聚簇索引指的是一種數據索引組織形式,它將數據和索引聚集在一起所以叫聚簇,它本身并不是一種索引類型。
一般InnoDB查找過程為從輔助索引上開始查找到數據主鍵,然后在主鍵索引中用主鍵再次查找,最后再找到數據,雖然多了一次查找過程,但更新數據不會導致聚簇索引頻繁變化。而在MyISAM中不需要2次索引查找,因為葉子節點存儲的是數據的物理地址可以直接定位,雖然查詢看似簡單了,但是物理地址會因為數據頻繁變更而發生變化。
假設有以下數據:
InnoDB(聚簇索引)數據查找過程:
MyISAM(非聚簇索引結構)數據查找過程:
哈希索引:基于哈希表來實現的索引類型,如果存在哈希沖突,索引會使用鏈表來存放多個記錄到一個哈希桶中。舉個例子:如果存在以下索引 key USING HASH(firstname),哈希索引會使用哈希函數計算出firstname列的哈希值作為key,并將行指針作為value存儲,當使用 =、IN()、<=>操作時,先計算出sql語句操作查找值的哈希值,并使用其來查找哈希表對應的行指針,從而返回數據。
這里需要注意是:
哈希索引只存儲哈希值和行指針,索引索引本身沒有行數據,也就沒有所謂的索引覆蓋。哈希索引沒有按哈希值的順序排列,所有不支持排序操作。不支持部分索引列的匹配,哈希索引使用你指定的全部列來計算哈希值,列入(A,B)如果查詢只有列A,則索引無發匹配。哈希索引只支持等值比較(=、in(),<=>)。哈希沖突較高時,查找效率就變成了鏈表,復雜度從O(1)變為O(n)。空間數據索引:MyISAM支持空間索引可以用來存儲地理數據。必須使用GIS相關函數如MBRCONUNTAINS()來維護數據,因為本身mysql對GIS的支持下不完善,這中特性使用很少。
全文索引:這是一種特殊類型的索引,他查找的是索引列中文本的關鍵詞,而不是比較索引值,全文索引的使用要注意列的文本大小和數據量,它的匹配方式類似于搜索引擎。
索引的優缺點?大大減少了服務器掃描表的數據量。避免不必要的排序和臨時表。將隨機IO變為順序IO。對于非常小的表,全表掃描可能比索引更快,對于中型數據量表,索引將會非常有效,對于TB級別的表來說,索引的維護和效果可能沒有我們想象的那樣好,這是可以使用表分區、業務拆分表和分庫等技術。常見的索引優化方式及注意事項?不要把索引的列納入表達式,也不能是函數參數,如where aid+1=5、where to_days(col)<=10.選擇重復性較低的列建索引,重復性較高會導致索引失效,全表掃描。多列索引中很多常見的錯誤是,喜歡為每個列創建獨立索引,實際上這是錯誤的!要選擇合適的順序和列來合并索引,來看個簡單例子:表數據為:
分別建2個獨立索引:inx_name, inx_company :
現在執行以下語句:
SELECT * from tuser where `name`='22' or company='bb'
結果顯示并沒有使用索引來查詢數據:
現在加一個多列索引:inx_name_company
執行同樣的sql顯示使用了多列索引:
不要在大文本字段建全量索引,這會然導致索引數據較大,查詢較慢,可以建一個前綴索引,例如//在city列上取前7個字符作為索引 mysql > alter table demo add key(city(7))
這是一種使索引更小,更快的方法,但缺點是無法使用綴索引order by或group by