大數(shù)據(jù)挖掘中的“大”在哪里?
  • 更新時間:2024-10-28 18:27:42
  • 網(wǎng)站建設
  • 發(fā)布時間:1年前
  • 270

以前我們講數(shù)據(jù)挖掘,大數(shù)據(jù)時代講大數(shù)據(jù)挖掘。那么大數(shù)據(jù)挖掘的“大”在哪里呢?本文做一些歸納,希望能提供一些思考問題的方法。

不足之處歡迎留言發(fā)表意見。

一、數(shù)據(jù)量的大

數(shù)據(jù)量有多大?這是很多人在挖掘大數(shù)據(jù)時不得不問的問題。

從一些實際應用來看,如果每天處理的數(shù)據(jù)量達到T、P級別,可以考慮部署Hadoop、Spark等大數(shù)據(jù)處理平臺。只有一定程度的數(shù)據(jù)處理才能凸顯這些平臺的優(yōu)勢。

數(shù)據(jù)量小,讀取和遷移數(shù)據(jù)所花費的時間占太多,不能體現(xiàn)大數(shù)據(jù)處理平臺的優(yōu)勢。很多應用只是為了大數(shù)據(jù)大數(shù)據(jù),幾百M也搞定Hadoop。因此,談大數(shù)據(jù)時想到Hadoop、Spark等平臺是非常有限的。

當然,在決定是否使用大數(shù)據(jù)平臺時,可能需要考慮更多的因素,例如:許多低性能機器的集成、異構軟硬件平臺之間的可移植性、海量非結構化數(shù)據(jù)處理等。

二、數(shù)據(jù)類型的多樣化

在數(shù)據(jù)挖掘時代,我們挖掘的數(shù)據(jù)主要是關系數(shù)據(jù)。大數(shù)據(jù)時代,各種應用產(chǎn)生各種數(shù)據(jù),大數(shù)據(jù)挖掘通常涉及多種數(shù)據(jù)類型。這里所說的數(shù)據(jù)類型不是編程中的普通數(shù)據(jù)類型,而是更接近于應用數(shù)據(jù)表示,通常包括時序數(shù)據(jù)、軌跡數(shù)據(jù)、圖形數(shù)據(jù)、文本數(shù)據(jù)等。

每天的銷售記錄和價格都是常見的數(shù)據(jù)類型,但它們從時間維度上是按順序連接起來的,形成的時間序列數(shù)據(jù)可以反映價格的變化規(guī)律,當然具有更豐富的含義。

每個人的位置只是一個普通的數(shù)據(jù)類型(x,y),但是按照運動的先后順序將位置連接起來就構成了一個人的活動軌跡,反映了他背后的生活和習慣。隱藏的信息才是大數(shù)據(jù)應該關注的。

微博或論壇中的每個人都是獨立存在的,也是公共數(shù)據(jù),但是如果把每個人按照粉絲、粉絲等關系連接起來,就可以形成一個大圖,即圖數(shù)據(jù)。圖中的人群和離群點,以及加入群體偏好、群體移動等屬性后的高層次圖數(shù)據(jù),是大數(shù)據(jù)挖掘的重點。

三、數(shù)據(jù)處理的噪音

在數(shù)據(jù)挖掘時代,數(shù)據(jù)來源于關系型數(shù)據(jù)庫,是與業(yè)務相關的高質量數(shù)據(jù),通??梢灾苯油诰颉_@絕對不是大數(shù)據(jù)挖掘的情況。大數(shù)據(jù)思維決定了我們必須考慮不同來源數(shù)據(jù)的質量和混合數(shù)據(jù)結構,以增強數(shù)據(jù)處理的健壯性。例如,要進行企業(yè)級的客戶分析,不同的分支機構可能會使用不同的客戶管理系統(tǒng)。有的系統(tǒng)用本科/碩士/博士來區(qū)分客戶的教育背景,有的則用本科/研究生來區(qū)分。這就需要考慮數(shù)據(jù)的一致性處理。此外,數(shù)據(jù)格式、數(shù)據(jù)完整性等都是大數(shù)據(jù)挖掘需要考慮的東西。

四、數(shù)據(jù)挖掘的多樣化

在數(shù)據(jù)挖掘時代,一般側重于單一的數(shù)據(jù)分析,而大數(shù)據(jù)挖掘可能更側重于業(yè)務中同時存在的多個數(shù)據(jù)挖掘任務,如分類、預測、關聯(lián)、聚類等。雖然有更多的業(yè)務需求,但是這些分類、預測、關聯(lián)、聚類在底層可能會使用同一個模型。因此,在挖掘大數(shù)據(jù)時,考慮模型、算法和業(yè)務的分離是非常重要的,即所謂的大數(shù)據(jù)處理層次。

我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!

本文章出于推來客官網(wǎng),轉載請表明原文地址:https://www.tlkjt.com/web/11917.html
推薦文章

在線客服

掃碼聯(lián)系客服

3985758

回到頂部