網站導航

zblogPHP模板zbpkf
zblog免費模板zblogfree
zblog模板學習zblogxuexi
zblogPHP仿站zbpfang

如何理解Python中的集合和字典？

C語言

江奕云2年前13瀏覽0評論

字典和集合是進行過性能高度優化的數據結構，特別是對于查找、添加和刪除操作。本節將結合實例介紹它們在具體場景下的性能表現，以及與列表等其他數據結構的對比。

例如，有一個存儲產品信息（產品ID、名稱和價格）的列表，現在的需求是，借助某件產品的ID找出其價格。則實現代碼如下：

deffind_product_price(products,product_id):

forid,priceinproducts:

ifid==product_id:

returnprice

returnNone

products=[

(111,100),

(222,30),

(333,150)

]

print('Thepriceofproduct222is{}'.format(find_product_price(products,222)))

運行結果為：

Thepriceofproduct222is30

在上面程序的基礎上，如果列表有n個元素，因為查找的過程需要遍歷列表，那么最壞情況下的時間復雜度就為O(n)。即使先對列表進行排序，再使用二分查找算法，也需要O(logn)的時間復雜度，更何況列表的排序還需要O(nlogn)的時間。

但如果用字典來存儲這些數據，那么查找就會非常便捷高效，只需O(1)的時間復雜度就可以完成，因為可以直接通過鍵的哈希值，找到其對應的值，而不需要對字典做遍歷操作，實現代碼如下：

products={

111:100,

222:30,

333:150

}

print('Thepriceofproduct222is{}'.format(products[222]))

運行結果為：

Thepriceofproduct222is30

有些讀者可能對時間復雜度并沒有直觀的認識，沒關系，再給大家列舉一個實例。下面的代碼中，初始化了含有100,000個元素的產品，并分別計算出了使用列表和集合來統計產品價格數量的運行時間：

#統計時間需要用到time模塊中的函數，了解即可

importtime

deffind_unique_price_using_list(products):

unique_price_list=[]

for_,priceinproducts:#A

ifpricenotinunique_price_list:#B

unique_price_list.append(price)

returnlen(unique_price_list)

id=[xforxinrange(0,100000)]

price=[xforxinrange(200000,300000)]

products=list(zip(id,price))

#計算列表版本的時間

start_using_list=time.perf_counter()

find_unique_price_using_list(products)

end_using_list=time.perf_counter()

print("timeelapseusinglist:{}".format(end_using_list-start_using_list))

#使用集合完成同樣的工作

deffind_unique_price_using_set(products):

unique_price_set=set()

for_,priceinproducts:

unique_price_set.add(price)

returnlen(unique_price_set)

#計算集合版本的時間

start_using_set=time.perf_counter()

find_unique_price_using_set(products)

end_using_set=time.perf_counter()

print("timeelapseusingset:{}".format(end_using_set-start_using_set))

運行結果為：

timeelapseusinglist:68.78650900000001

timeelapseusingset:0.010747099999989018

可以看到，僅僅十萬的數據量，兩者的速度差異就如此之大。而往往企業的后臺數據都有上億乃至十億數量級，因此如果使用了不合適的數據結構，很容易造成服務器的崩潰，不但影響用戶體驗，并且會給公司帶來巨大的財產損失。

那么，字典和集合為什么能如此高效，特別是查找、插入和刪除操作呢？

字典和集合的工作原理

字典和集合能如此高效，和它們內部的數據結構密不可分。不同于其他數據結構，字典和集合的內部結構都是一張哈希表：

對于字典而言，這張表存儲了哈希值（hash）、鍵和值這3個元素。

而對集合來說，哈希表內只存儲單一的元素。

對于之前版本的Python來說，它的哈希表結構如下所示：

哈希值(hash)鍵(key)值(value)

.|...

0|hash0key0value0

.|...

1|hash3key1value1

.|...

2|hash2key2value2

.|...

這種結構的弊端是，隨著哈希表的擴張，它會變得越來越稀疏。比如，有這樣一個字典：

{'name':'mike','dob':'1999-01-01','gender':'male'}

那么它會存儲為類似下面的形式：

entries=[

['--','--','--']

[-230273521,'dob','1999-01-01'],

['--','--','--'],

[1231236123,'name','mike'],

['--','--','--'],

[9371539127,'gender','male']

]

顯然，這樣非常浪費存儲空間。為了提高存儲空間的利用率，現在的哈希表除了字典本身的結構，會把索引和哈希值、鍵、值單獨分開，也就是采用如下這種結構：

Indices

----------------------------------------------------

----------------------------------------------------

Entries

--------------------

hash0key0value0

---------------------

hash3key1value1

---------------------

hash2key2value2

---------------------

...

---------------------

在此基礎上，上面的字典在新哈希表結構下的存儲形式為：

indices=[None,1,None,None,0,None,2]

entries=[

[1231236123,'name','mike'],

[-230273521,'dob','1999-01-01'],

[9371539127,'gender','male']

]

通過對比可以發現，空間利用率得到很大的提高。

清楚了具體的設計結構，接下來再分析一下如何使用哈希表完成對數據的插入、查找和刪除操作。

哈希表插入數據

當向字典中插入數據時，Python會首先根據鍵（key）計算出對應的哈希值（通過hash(key)函數），而向集合中插入數據時，Python會根據該元素本身計算對應的哈希值（通過hash(valuse)函數）。

例如：

dic={"name":1}

print(hash("name"))

setDemo={1}

print(hash(1))

運行結果為：

8230115042008314683

得到哈希值（例如為hash）之后，再結合字典或集合要存儲數據的個數（例如n），就可以得到該元素應該插入到哈希表中的位置（比如，可以用hash%n的方式）。

如果哈希表中此位置是空的，那么此元素就可以直接插入其中；反之，如果此位置已被其他元素占用，那么Python會比較這兩個元素的哈希值和鍵是否相等：

如果相等，則表明該元素已經存在，再比較他們的值，不相等就進行更新；

如果不相等，這種情況稱為哈希沖突（即兩個元素的鍵不同，但求得的哈希值相同）。這種情況下，Python會使用開放定址法、再哈希法等繼續尋找哈希表中空余的位置，直到找到位置。

具體遇到哈希沖突時，各解決方法的具體含義可閱讀《哈希表詳解》一節做詳細了解。

哈希表查找數據

在哈希表中查找數據，和插入操作類似，Python會根據哈希值，找到該元素應該存儲到哈希表中的位置，然后和該位置的元素比較其哈希值和鍵（集合直接比較元素值）：

如果相等，則證明找到；

反之，則證明當初存儲該元素時，遇到了哈希沖突，需要繼續使用當初解決哈希沖突的方法進行查找，直到找到該元素或者找到空位為止。

這里的找到空位，表示哈希表中沒有存儲目標元素。

哈希表刪除元素

對于刪除操作，Python會暫時對這個位置的元素賦于一個特殊的值，等到重新調整哈希表的大小時，再將其刪除。

需要注意的是，哈希沖突的發生往往會降低字典和集合操作的速度。因此，為了保證其高效性，字典和集合內的哈希表，通常會保證其至少留有1/3的剩余空間。隨著元素的不停插入，當剩余空間小于1/3時，Python會重新獲取更大的內存空間，擴充哈希表，與此同時，表內所有的元素位置都會被重新排放。

上一篇自然語言處理的建模過程是什么？

下一篇防火墻是指,執行訪問控制策略的一組系統嗎？

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

如何理解Python中的集合和字典？

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網站導航

網站導航

網站分類

如何理解Python中的集合和字典？

相關文章