Python 是一種很流行的編程語(yǔ)言,適合各種數(shù)據(jù)處理任務(wù)。其中,數(shù)據(jù)集分類是數(shù)據(jù)處理任務(wù)中的一個(gè)重要子任務(wù)。使用 Python 可以方便地進(jìn)行數(shù)據(jù)集分類,這篇文章將演示一個(gè)簡(jiǎn)單的數(shù)據(jù)集分類程序。
# 導(dǎo)入所需的庫(kù) import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score # 讀取數(shù)據(jù)集 data = pd.read_csv("dataset.csv") # 分割訓(xùn)練集和測(cè)試集 train_data, test_data, train_label, test_label = train_test_split(data.iloc[:,:-1],data.iloc[:,-1],test_size=0.2,random_state=0) # 構(gòu)建分類器 clf = DecisionTreeClassifier() # 訓(xùn)練分類器 clf.fit(train_data, train_label) # 預(yù)測(cè)測(cè)試集的類別 pred = clf.predict(test_data) # 計(jì)算準(zhǔn)確率 accuracy = accuracy_score(test_label, pred) # 輸出準(zhǔn)確率 print("Accuracy:", round(accuracy*100,2), "%")
在這個(gè)程序中,我們首先導(dǎo)入所需的庫(kù)。然后讀取數(shù)據(jù)集,使用 train_test_split 分割成訓(xùn)練集和測(cè)試集。接著,構(gòu)建一個(gè)決策樹分類器,并使用 train_data 和 train_label 訓(xùn)練分類器。最后,使用測(cè)試集 test_data 進(jìn)行預(yù)測(cè),并計(jì)算準(zhǔn)確率。
這只是一個(gè)簡(jiǎn)單的示例程序,真正的數(shù)據(jù)處理任務(wù)中可能需要更復(fù)雜的分類器和更復(fù)雜的數(shù)據(jù)處理方式。然而,使用 Python 進(jìn)行數(shù)據(jù)集分類可以方便地應(yīng)對(duì)各種數(shù)據(jù)處理任務(wù)。