您現在的位置是:首頁 > 攝影首頁攝影

關聯規則|資料探勘領域中被髮明並被廣泛研究的一種重要模型

由 火車採集器 發表于 攝影2021-09-12
簡介事實上,支援度和置信度是衡量關聯規則強度的兩個重要指標,它們分別反映著所發現規則的有用性和確定性

商業領域資料探勘是如何誕生的?

關聯規則是在資料庫和資料探勘領域中被髮明並被廣泛研究的一種重要模型,關聯規則資料探勘的主要目的是找出資料集中的頻繁模式,即多次重複出現的模式和併發關係,即同時出現的關係,頻繁和併發關係也被稱作關聯。

關聯規則|資料探勘領域中被髮明並被廣泛研究的一種重要模型

應用關聯規則最經典的案例就是購物籃分析,透過分析顧客購物籃中商品之間的關聯,可以挖掘顧客的購物習慣,從而幫助零售商更好地制定有針對性的營銷策略。

舉一個簡單的關聯規則的例子:

嬰兒尿不溼->啤酒[支援度=10%,置信度=70%]

這個規則表明,在所有顧客中,有10%的顧客同時購買了尿不溼和啤酒,而在所有購買了嬰兒尿不溼的顧客中,佔70%的人同時還購買了啤酒。發現這個關聯規則後,超市零售商決定把嬰兒尿不溼和啤酒擺放在一起進行促銷,結果明顯提升了銷售額,這就是發生在沃爾瑪超市中“啤酒和尿不溼”的經典營銷案例。

上面的這個案例是否讓你對支援度和置信度有了一定的瞭解?事實上,支援度和置信度是衡量關聯規則強度的兩個重要指標,它們分別反映著所發現規則的有用性和確定性。其中

支援度:規則x->y的支援度是指事物全集中包含xuy的事物百分比。

支援度主要衡量規則的有用性,如果支援度太小,則說明相應規則知識偶發事件。

在商業實戰中,偶發事件很可能沒有商業價值;

置信度:規則規則x->y的置信度是指既包含了x的事物數量的百分比。

置信度主要衡量規則的確定性(可預測性),如果置信度太低,那麼從x就很難可靠地推斷出y來,置信度太低的規則在實踐應用中也沒有太大用處。

關聯規則|資料探勘領域中被髮明並被廣泛研究的一種重要模型

在眾多的關聯規則資料探勘演算法中,最著名的就是Apriori演算法,該演算法具體分為以下兩步進行:

(1)生成所有的頻繁專案集。

一個頻繁專案集是一個支援度高於最小支援度閥值的專案集。

(2)從頻繁專案集中生成所有的可信關聯規則。

這裡可信關聯規則是指置信度大於最小置信度閥值的規則。

關聯規則演算法不但在數值型資料集的分析中有很大用途,而且在純文字文件和網頁檔案中,也有著重要用途。比如發現單詞間的併發關係以及web的使用模式等,這些都是web資料探勘、搜尋及推薦的基礎。