Python 是一種流行的高級編程語言,它在數據科學和機器學習等領域具有很強的生產力。 泰坦尼克號是 20 世紀初期的一次著名船難,讓許多人失去了寶貴的生命。 數據分析和機器學習的愛好者經常使用泰坦尼克號數據集作為測試數據集,并嘗試在 Python 中使用該數據集來構建機器學習模型,以預測不同情況下的乘客生存率。
#導入必要的模塊和庫 import pandas as pd from sklearn.tree import DecisionTreeClassifier #讀取數據集 data = pd.read_csv("titanic.csv") #看看數據的樣子(前5行) print(data.head()) #刪除無用的列(例如:乘客ID、姓名、船票編號等) data = data.drop(["PassengerId","Name","Ticket","Cabin"],axis=1) #處理缺失值 data = data.dropna() #將數據集分成特征集和目標集 X = data.drop("Survived",axis=1) y = data["Survived"] #使用決策樹算法構建模型 model = DecisionTreeClassifier() model.fit(X,y) #測試一下模型 print(model.predict([[3,1,22,1,0,7.25,0]]))
上面的 Python 代碼演示了如何使用 pandas 庫中的 read_csv() 函數讀取泰坦尼克號數據集。然后,將數據集拆分成特征集和目標集,并使用決策樹算法構建分類模型。最后,我們使用 predict() 函數在測試數據上測試了模型的準確性。
下一篇c 對于json使用