以雙維度表格為主的數據類型是結構化數據?
結構化數據,簡單來說就是數據庫。 相對于結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據)而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據。
因為數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。
我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。 結構化數據即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據。
非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。 所謂半結構化數據,就是介于完全結構化數據(如關系型數據庫、面向對象數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,HTML文檔就屬于半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。