隨著中國(guó)社會(huì)的進(jìn)一步發(fā)展,各行各業(yè)都得到了一定程度的進(jìn)步。進(jìn)入21世紀(jì)以來(lái),大數(shù)據(jù)、人工智能等行業(yè)的飛速發(fā)展,極大的帶動(dòng)全社會(huì)進(jìn)步。但是,在一些傳統(tǒng)行業(yè)內(nèi)部,還存在這落后的東西,例如數(shù)據(jù)采集還是沿用傳統(tǒng)的采集方式,大部分借助于人工采集方式,耗時(shí)耗力,亟需改進(jìn)。隨著企業(yè)業(yè)務(wù)數(shù)字化轉(zhuǎn)型的推進(jìn),非數(shù)字原生企業(yè)對(duì)數(shù)據(jù)的感知和獲取提出了新的要求和挑戰(zhàn),原有信息化平臺(tái)的數(shù)據(jù)輸出和人工錄入能力已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了企業(yè)內(nèi)部組織在數(shù)字化下的運(yùn)作需求。企業(yè)需要構(gòu)建數(shù)據(jù)感知能力,采用現(xiàn)代化手段采集和獲取數(shù)據(jù),減少人工錄入。和這些內(nèi)容息息相關(guān)的就是數(shù)據(jù)采集,小億***就和大家聊聊關(guān)于數(shù)據(jù)采集。一、什么是數(shù)據(jù)采集?數(shù)據(jù)采集,又稱(chēng)數(shù)據(jù)獲取,是利用一種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。在互聯(lián)網(wǎng)行業(yè)快速發(fā)展的***,數(shù)據(jù)采集已經(jīng)被***應(yīng)用于人工智能等相關(guān)領(lǐng)域,攝像頭、麥克風(fēng)等,都是數(shù)據(jù)采集的工具。數(shù)據(jù)采集系統(tǒng)整合了信號(hào)、傳感器等數(shù)據(jù)采集設(shè)備和應(yīng)用軟件。在數(shù)據(jù)大的互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)的類(lèi)型也是復(fù)雜多樣的,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)**常見(jiàn),就是具有模式的數(shù)據(jù)。數(shù)據(jù)采集在游戲開(kāi)發(fā)中可以用于玩家行為分析和游戲體驗(yàn)優(yōu)化。杭州數(shù)控?cái)?shù)據(jù)采集單價(jià)
也正是堅(jiān)守于此,過(guò)去五年,不論是在數(shù)據(jù)采集技術(shù),還是數(shù)據(jù)治理方案等方面,我們都做了很多的工作,也幫助了很多的客戶(hù)。比如我們建立強(qiáng)大的數(shù)據(jù)采集SDK研發(fā)團(tuán)隊(duì),并將SDK全部開(kāi)源,也維護(hù)著近1500人的開(kāi)源討論社群,同時(shí)不斷向業(yè)界輸出我們的積累、經(jīng)驗(yàn)和沉淀,讓數(shù)據(jù)采集技術(shù)不再神秘,更讓數(shù)據(jù)采集技術(shù)的生態(tài)更好、更健康的向前發(fā)展。二、業(yè)內(nèi)常見(jiàn)的數(shù)據(jù)采集方案目前,市面上常見(jiàn)的埋點(diǎn)方式主要有三種:代碼埋點(diǎn)、全埋點(diǎn)和可視化埋點(diǎn)。1.代碼埋點(diǎn)代碼埋點(diǎn),即客戶(hù)端集成SDK,在客戶(hù)端啟動(dòng)的時(shí)候初始化SDK,然后在某個(gè)事件(行為)發(fā)生時(shí),客戶(hù)端顯示調(diào)用SDK的接口觸發(fā)相應(yīng)的事件。代碼埋點(diǎn),是**常見(jiàn)的埋點(diǎn)方式,同時(shí)也是“*****”的埋點(diǎn)方式。其優(yōu)點(diǎn)如下:(1)可以精細(xì)控制埋點(diǎn);(2)可以靈活添加自定義事件和屬性;(3)可以滿足更精細(xì)化的分析需求。同時(shí),代碼埋點(diǎn)也有一些缺點(diǎn):(1)前期埋點(diǎn)代價(jià)比較大;(2)埋點(diǎn)的變更,需要伴隨客戶(hù)端的發(fā)版。2.全埋點(diǎn)全埋點(diǎn),也叫無(wú)埋點(diǎn)、**埋點(diǎn)、無(wú)痕埋點(diǎn)、自動(dòng)埋點(diǎn)等,是指無(wú)需開(kāi)發(fā)工程師寫(xiě)代碼或者只寫(xiě)少量的代碼,就能預(yù)先自動(dòng)采集用戶(hù)的所有行為數(shù)據(jù),然后在數(shù)據(jù)分析產(chǎn)品上通過(guò)點(diǎn)選和配置,來(lái)篩選要分析和統(tǒng)計(jì)的對(duì)象。無(wú)錫工業(yè)數(shù)據(jù)采集售價(jià)傳感器技術(shù)是數(shù)據(jù)采集的基礎(chǔ)之一,用于捕獲物理世界的信息。
方案二:為了解決數(shù)據(jù)準(zhǔn)確性的問(wèn)題,神策數(shù)據(jù)升級(jí)出第二版解決方案。眾所周知,在瀏覽器查看網(wǎng)頁(yè)的時(shí)候,瀏覽器沒(méi)有辦法獲取到用戶(hù)的設(shè)備信息,就像用戶(hù)在電腦端打開(kāi)網(wǎng)頁(yè),網(wǎng)頁(yè)無(wú)法訪問(wèn)用戶(hù)的磁盤(pán),在手機(jī)端打開(kāi)網(wǎng)頁(yè),它也沒(méi)有辦法訪問(wèn)用戶(hù)的相機(jī)、傳感器等,所以H5是如何獲取設(shè)備信息的呢?一般情況下,H5通過(guò)獲取當(dāng)前UA值來(lái)做解析;但UA值的解析會(huì)存在很多問(wèn)題,主要體現(xiàn)在Web和Android上,特別是Android系統(tǒng)中的很多瀏覽器,UA值的規(guī)則無(wú)法統(tǒng)一,所以經(jīng)常會(huì)遇到以下幾種情況:(1)在數(shù)據(jù)采集的時(shí)候難以解析UA值;(2)解析的數(shù)據(jù)非真實(shí)數(shù)據(jù);(3)對(duì)于Android和iOS來(lái)講,為了實(shí)現(xiàn)一些特殊功能,很多開(kāi)發(fā)工程師會(huì)獲取修改UA值。有的工程師會(huì)在獲取之后進(jìn)行追加,這是**好的方式;但也有工程師會(huì)在獲取后替換標(biāo)準(zhǔn)UA值,從而導(dǎo)致我們解析不到或者解析到的UA值不正確。在H5中觸發(fā)的事件,通常需要采集其基礎(chǔ)屬性,如App版本號(hào)、當(dāng)前操作系統(tǒng)版本號(hào)、操作系統(tǒng)的類(lèi)型、屏幕尺寸等,此時(shí)單純通過(guò)UA值無(wú)法完成解析,就意味著對(duì)“打通”提出了更高要求?;诖?,神策把H5產(chǎn)生的事件通過(guò)一定的技術(shù),傳給App集成的數(shù)據(jù)采集SDK,當(dāng)App數(shù)據(jù)采集SDK接收到事件之后。
另外一個(gè)技術(shù)理念是:一切要為業(yè)務(wù)所用。我們固執(zhí)地認(rèn)為,技術(shù)如果不能為業(yè)務(wù)所用,那它就是毫無(wú)價(jià)值的。我們自主研發(fā)的Angel項(xiàng)目,出發(fā)點(diǎn)也是因?yàn)楫?dāng)時(shí)開(kāi)源社區(qū)里面沒(méi)有符合我們業(yè)務(wù)需求的機(jī)器學(xué)習(xí)平臺(tái),自主研發(fā)是因?yàn)閷?duì)業(yè)務(wù)有價(jià)值,而不是因?yàn)樗诩夹g(shù)上很有挑戰(zhàn)性以及我們要證明自己技術(shù)很牛。Angel自2017年開(kāi)源后有超過(guò)一百多個(gè)公司和組織使用,包括華為、小米、OPPO、新浪微博、拼多多等,發(fā)揮了Angel在騰訊以外的價(jià)值。02騰訊大數(shù)據(jù)的總體架構(gòu)如前所述,騰訊大數(shù)據(jù)十余年的發(fā)展,經(jīng)歷了三代的技術(shù)演變,如圖1所示。▲圖1騰訊大數(shù)據(jù)三代技術(shù)演變***代架構(gòu)從2009~2011年,以承載離線計(jì)算任務(wù)為主,如圖2所示。TDW主要以Hadoop為基礎(chǔ)構(gòu)建,我們主要做了兩方面的優(yōu)化:其一擴(kuò)大了集群規(guī)模,包括增強(qiáng)了集群拓展性,優(yōu)化了調(diào)度性能,增強(qiáng)了容災(zāi)能力,通過(guò)差異化存儲(chǔ)降低了存儲(chǔ)成本;其二是利用周邊生態(tài)降低應(yīng)用門(mén)檻,建設(shè)配套的調(diào)度與開(kāi)發(fā)平臺(tái),兼容Oracle的語(yǔ)法,以及集成PostgreSQL數(shù)據(jù)庫(kù)以提升小數(shù)據(jù)量的分析性能。***代平臺(tái)總結(jié)起來(lái)就是,技術(shù)上主要滿足離線計(jì)算需求,技術(shù)挑戰(zhàn)主要在不斷擴(kuò)展和優(yōu)化集群規(guī)模,單集群規(guī)模從幾十臺(tái)到幾百臺(tái),再到幾千臺(tái)不斷突破。數(shù)據(jù)采集技術(shù)的不斷進(jìn)步推動(dòng)了物聯(lián)網(wǎng)、智能城市等領(lǐng)域的發(fā)展。
對(duì)事件里的屬性?xún)?nèi)容進(jìn)行二次加工,甚至是修正。一方面保證數(shù)據(jù)采集的準(zhǔn)確性,另一方面保證數(shù)據(jù)的完整性。因?yàn)樯癫呖蛻?hù)大多數(shù)采用私有化部署,神策難以統(tǒng)計(jì)用戶(hù)數(shù)據(jù)丟失率,但是在業(yè)界普遍標(biāo)準(zhǔn)是“App的數(shù)據(jù)丟失率在1%左右,H5和Web的數(shù)據(jù)丟失率在5%左右”,之所以有5倍差異,是因?yàn)镠5的本地緩存是有限的,數(shù)據(jù)上傳失敗就意味著丟失;另外,大多情況下H5在App中以單頁(yè)面形式存在,H5發(fā)送網(wǎng)絡(luò)請(qǐng)求之后,如果用戶(hù)退出頁(yè)面,其網(wǎng)絡(luò)請(qǐng)求隨之被取消,沒(méi)有辦法實(shí)現(xiàn)完全同步,這種情況下數(shù)據(jù)“打通”便朝著更高要求、高標(biāo)準(zhǔn)邁進(jìn)——如何“打通”App與H5降低數(shù)據(jù)丟失率?App采集的事件并非實(shí)時(shí)同步,因?yàn)锳pp內(nèi)事件多、頻率高,每次采集后立即同步會(huì)給服務(wù)器帶來(lái)很大的壓力,所以一般情況下,App內(nèi)會(huì)增加本地緩存,所有采集到的事件先存入本地緩存,達(dá)到一定條件后再進(jìn)行同步。也就是說(shuō),根據(jù)緩存制定相應(yīng)的數(shù)據(jù)同步策略。如果按照以上方案,將H5的事件傳給App進(jìn)行二次加工,進(jìn)入App端的本地緩存,走App端事件同步策略,就能**降低H5事件丟失的概率。這是我們?cè)贏pp與H5打通的第二版中著重處理的內(nèi)容,在該解決方案中,不管是用戶(hù)標(biāo)識(shí)、數(shù)據(jù)準(zhǔn)確性,還是數(shù)據(jù)完整性,都能得到解決。目標(biāo)數(shù)據(jù),數(shù)據(jù)來(lái)源,數(shù)據(jù)類(lèi)型,數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)質(zhì)量,數(shù)據(jù)處理方式,數(shù)據(jù)更新周期。無(wú)錫如何數(shù)據(jù)采集大概多少錢(qián)
數(shù)據(jù)采集可以通過(guò)智能保險(xiǎn)系統(tǒng)實(shí)現(xiàn)對(duì)保險(xiǎn)合規(guī)的實(shí)時(shí)監(jiān)控。杭州數(shù)控?cái)?shù)據(jù)采集單價(jià)
標(biāo)簽在倉(cāng)庫(kù)以及車(chē)間中***被使用,倉(cāng)庫(kù)中主要是從物料的采購(gòu)、領(lǐng)用、完工、銷(xiāo)售及倉(cāng)庫(kù)其他出入庫(kù)管理中進(jìn)行使用,而車(chē)間中主要是工序的派工、流轉(zhuǎn)、工時(shí)及完工申報(bào)時(shí)使用,配合RFID的無(wú)線射頻識(shí)別技術(shù),可以直接通過(guò)讀寫(xiě)設(shè)備方式把倉(cāng)庫(kù)及車(chē)間數(shù)據(jù)傳輸?shù)缴a(chǎn)數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)庫(kù)中,方便車(chē)間管理者能夠?qū)崟r(shí)分析車(chē)間生產(chǎn)流水情況。標(biāo)準(zhǔn)數(shù)控系統(tǒng)、二開(kāi)數(shù)控系統(tǒng)、PLC及工控PC、加裝傳感器加裝傳感器在工廠生產(chǎn)數(shù)據(jù)采集系統(tǒng)過(guò)程中常用的加裝傳感器類(lèi)型有:光纖傳感器、模擬傳感器、金屬感應(yīng)器、紅外感應(yīng)器、氣敏傳感器、磁感應(yīng)器、震動(dòng)感應(yīng)器等,工廠中采用加裝傳感器可以采集溫度、濕度、壓力、技術(shù)、液控、位移等等數(shù)據(jù),并將數(shù)據(jù)進(jìn)行高速傳輸,方便系統(tǒng)的讀取和分析,在很大程度上提高生產(chǎn)效率。比如在生產(chǎn)線對(duì)設(shè)備進(jìn)行聯(lián)網(wǎng)監(jiān)控時(shí),在手工作業(yè)中,可以在工序上安裝傳感器自動(dòng)采集工序的在制品產(chǎn)出量,進(jìn)而縮短人工時(shí)間,提高效能。 杭州數(shù)控?cái)?shù)據(jù)采集單價(jià)