數據挖掘——第二章認識數據
單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,*,,*,,第2章認識數據,,,,一·數據對象,,數據集由數據對象構成,,個數據對象代表一個實體,,例子,,銷售數據庫 sales database:客戶/顧客,商店物品, sales,,醫(yī)學數據庫:,,s,treatments,,大學數據庫: students,, professors,, courses,,又稱為樣本,事例,實例,數據點,對象,元組 tuples.,,數據對象由屬性來描述,,Database rows ->data objects; columns -attributes.,,,,屬性「,,屬性 Attribute(or維度,特征,變量):一個數據字段,表示,,個數據對象的某個特征,,E. g, customer-ID, name, address,,類型:,,名詞性 Nominal,,元的,,數字的 Numeric:數量的,,Interval-scaled,,· Ratio-scaled,,,,屬性類型,,,名詞性 Nomina:類別,狀態(tài),r“名目,,whie olor=auburn, black, blond, brown, grey, red.,,Hai,,婚姻狀態(tài),職業(yè) occupation, ID numbers, zip codes,,只有2個狀態(tài)的名詞性屬性(0and1),,對稱二元 Symmetric binary同樣重要的兩相,,e.g., gender,,非對稱 Asymmetric binary:非同等重要,,eg,醫(yī)療檢查( positive vs negative),,慣例 Convention: assign1 to most important,,outcome(e.g, HIV positive),,·順序的 Ordinal,,值有一個有意義的順序排序)但連續(xù)值之間的大小未知,,size={smal, medium,arge,等級,軍隊排名,,,,數值屬性的類型,,數量 Quantity( integer or real-valued),,區(qū)間mera,,在某個同等大小的一個尺度單位上 Measured on a,,scale of equal-sized units,,值有序,,E.g., temperature in C or F, calendar dates,,沒有真正的零點,,Ratio,,有真正的零點,,可以講值是被測量單位一個數量級(0Kwe,,s high a,,eg,溫度在開爾又長度計數貨幣的數量,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,