數(shù)據(jù)采集通常有兩種解釋?zhuān)阂环N是從數(shù)據(jù)源收集、識(shí)別和選取數(shù)據(jù)的過(guò)程。另一種是數(shù)字化、電子掃描系統(tǒng)的記錄過(guò)程以及內(nèi)容和屬性的編碼過(guò)程。數(shù)據(jù)采集系統(tǒng)包括了:可視化的報(bào)表定義、審核關(guān)系的定義、報(bào)表的審批和發(fā)布、數(shù)據(jù)填報(bào)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)評(píng)審、綜合查詢統(tǒng)計(jì)等功能模塊。通過(guò)信息采集網(wǎng)絡(luò)化和數(shù)字化,擴(kuò)大數(shù)據(jù)采集的覆蓋范圍,提高審核工作的全面性、及時(shí)性和準(zhǔn)確性;實(shí)現(xiàn)相關(guān)業(yè)務(wù)工作管理現(xiàn)代化、程序規(guī)范化、決策科學(xué)化,服務(wù)網(wǎng)絡(luò)化。生產(chǎn)現(xiàn)場(chǎng)數(shù)據(jù)采集在品質(zhì)過(guò)程中的非常重要的一個(gè)環(huán)節(jié),好的數(shù)據(jù)采集方案可把品質(zhì)管理人員從處理數(shù)據(jù)的繁重工作中解放出來(lái),有更多的時(shí)間去解決實(shí)際的品質(zhì)問(wèn)題,同時(shí)即時(shí)的數(shù)據(jù)采集也使系統(tǒng)真正地實(shí)現(xiàn)實(shí)時(shí)監(jiān)控,盡早發(fā)現(xiàn)問(wèn)題,避免更大的損失。對(duì)上位機(jī)進(jìn)行高效率數(shù)據(jù)處理,嚴(yán)行把控?cái)?shù)據(jù)準(zhǔn)確性。馬鞍山企業(yè)數(shù)據(jù)采集方案
隨著信息化時(shí)代的來(lái)臨,大數(shù)據(jù)越來(lái)越被重視,數(shù)據(jù)采集的挑戰(zhàn)變的尤為突出。許多大型企業(yè)和****在信息化過(guò)程中結(jié)合自身業(yè)務(wù)搭建起了各種各樣的軟件系統(tǒng),其中積累了大量的行業(yè)和**,他們急需將這些數(shù)據(jù)匯聚起來(lái),形成自己的大數(shù)據(jù)平臺(tái),做數(shù)據(jù)挖掘和分析,精細(xì)地服務(wù)他們的客戶。當(dāng)前數(shù)據(jù)采集的挑戰(zhàn)如下:1、數(shù)據(jù)源多種多樣2、數(shù)據(jù)量大,更新**、如何保證數(shù)據(jù)采集的可靠性的性能4、如何避免重復(fù)數(shù)據(jù)5、如何保證數(shù)據(jù)的質(zhì)量。那么如何將這么多軟件系統(tǒng)中形形**的數(shù)據(jù)快速、準(zhǔn)確地采集出來(lái)呢?***就和大家討論幾種針對(duì)各種軟件系統(tǒng)的數(shù)據(jù)采集的方式方法。重點(diǎn)關(guān)注它們的實(shí)現(xiàn)過(guò)程、各自的優(yōu)缺點(diǎn)。1、軟件接口對(duì)接方式2、開(kāi)放數(shù)據(jù)庫(kù)方式3、基于底層數(shù)據(jù)交換的數(shù)據(jù)直接采集方式1、軟件接口對(duì)接方式各個(gè)軟件廠商提供數(shù)據(jù)接口,實(shí)現(xiàn)數(shù)據(jù)匯集,為客戶構(gòu)建出自己的業(yè)務(wù)大數(shù)據(jù)平臺(tái);實(shí)現(xiàn)過(guò)程如下:1)協(xié)調(diào)多方軟件廠商工程師,了解對(duì)方系統(tǒng)的業(yè)務(wù)流程以及數(shù)據(jù)庫(kù)相關(guān)的表結(jié)構(gòu)設(shè)計(jì)等,討論如何實(shí)現(xiàn)數(shù)據(jù)的正確匯集并且在業(yè)務(wù)上可行。推敲各個(gè)細(xì)節(jié),**后確定一個(gè)雙方都認(rèn)可的方案。兩個(gè)系統(tǒng)的接口是在雙方工程師的配合下完成的。有的處理可以在A系統(tǒng)進(jìn)行,也可以在B系統(tǒng)進(jìn)行。質(zhì)量數(shù)據(jù)采集管理系統(tǒng)數(shù)據(jù)采集可以幫助企業(yè)分析市場(chǎng)趨勢(shì)和競(jìng)爭(zhēng)對(duì)手的行為,為制定戰(zhàn)略決策提供可靠的依據(jù)。
▲圖2***代離線計(jì)算平臺(tái)架構(gòu)第二代架構(gòu)從2012~2014年,在承載離線計(jì)算的基礎(chǔ)上,擴(kuò)展了平臺(tái)能力,支持實(shí)時(shí)計(jì)算的需求,如圖3所示?!鴪D3第二代實(shí)時(shí)計(jì)算平臺(tái)架構(gòu)在***代離線計(jì)算平臺(tái)基礎(chǔ)之上,我們?nèi)诤蟂torm和Spark構(gòu)建了第二代實(shí)時(shí)計(jì)算平臺(tái)。主要的演進(jìn)如下。1)集成Spark,離線計(jì)算比Hadoop性能更高。2)引入Storm,支持秒級(jí)/毫秒級(jí)的流式計(jì)算任務(wù)。3)建設(shè)了實(shí)時(shí)采集系統(tǒng)TDBank,數(shù)據(jù)采集實(shí)現(xiàn)從天級(jí)(T+1)到秒級(jí)的飛躍。4)支持資源和任務(wù)調(diào)度方面,平臺(tái)支持離線與在線混合部署,任務(wù)容器化,資源管理的維度支持CPU、內(nèi)存,以及網(wǎng)絡(luò)與I/O,進(jìn)一步提升了平臺(tái)輕量化、敏捷性與靈活性,極大提升了平臺(tái)利用率,降低了成本。第三代架構(gòu)從2015~2019年,在通用大數(shù)據(jù)計(jì)算外,開(kāi)始支持機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等AI場(chǎng)景,BigData與AI在平臺(tái)層面逐步融合,如圖4所示。▲圖4第三代機(jī)器學(xué)習(xí)計(jì)算平臺(tái)在第二代實(shí)時(shí)計(jì)算平臺(tái)基礎(chǔ)上,自主研發(fā)了機(jī)器學(xué)習(xí)平臺(tái)Angel,并以Angel為**構(gòu)建第三代機(jī)器學(xué)習(xí)計(jì)算平臺(tái)生態(tài)。主要演進(jìn)如下。1)我們與北京大學(xué)合作,自主研發(fā)了高性能分布式機(jī)器學(xué)習(xí)平臺(tái)。該平臺(tái)支持十億至百億維度模型,支持?jǐn)?shù)據(jù)并行及模型并行,支持在線訓(xùn)練。同時(shí)。
就是說(shuō)在你的操作系統(tǒng)開(kāi)機(jī)的時(shí)候,計(jì)數(shù)器從0開(kāi)始計(jì)數(shù),這也是我們從手機(jī)“設(shè)置”里能看到的手機(jī)開(kāi)機(jī)時(shí)長(zhǎng),因此,用這個(gè)時(shí)間來(lái)計(jì)算用戶的App使用時(shí)長(zhǎng),得到的數(shù)據(jù)100%是正確的。挑戰(zhàn)三:退出事件補(bǔ)發(fā)前些年有人提出這個(gè)場(chǎng)景:假如用戶的手機(jī)掉水里了,神策能否采集到退出事件?我的回答是,如果用戶的手機(jī)能從水里拿出來(lái),能正常開(kāi)機(jī)并正常啟動(dòng)App,那么就可以實(shí)現(xiàn)退出事件補(bǔ)發(fā)。什么叫補(bǔ)發(fā)?因?yàn)橛脩粼谑褂肁pp的時(shí)候,可能會(huì)隨時(shí)退出,針對(duì)此,我們?cè)谟脩魡?dòng)頁(yè)面的時(shí)候,完成計(jì)數(shù),每隔一定時(shí)間記錄一次,如果在用戶下一次啟動(dòng)App的時(shí)候,我們發(fā)現(xiàn)這個(gè)時(shí)間戳還在,但是沒(méi)有觸發(fā)啟動(dòng)事件,那么我們就會(huì)立即把上一次的退出事件補(bǔ)發(fā)。不管是“啟動(dòng)”還是“退出”,都是我們?cè)趯?shí)際數(shù)據(jù)采集與業(yè)務(wù)分析時(shí)的常見(jiàn)場(chǎng)景。神策面對(duì)客戶的每一個(gè)場(chǎng)景、每一個(gè)挑戰(zhàn)都能迎難而上,這是秉承對(duì)客戶負(fù)責(zé)的責(zé)任感,更是神策追求***的表現(xiàn)。作者介紹王灼洲先生是《Android全埋點(diǎn)解決方案》《iOS全埋點(diǎn)解決方案》作者,神策數(shù)據(jù)治理研發(fā)部負(fù)責(zé)人。有10+年Android&iOS相關(guān)開(kāi)發(fā)經(jīng)驗(yàn),是國(guó)內(nèi)***批從事Android研發(fā)工作,開(kāi)發(fā)和維護(hù)國(guó)內(nèi)***個(gè)商用的開(kāi)源Android&iOS數(shù)據(jù)埋點(diǎn)SDK。數(shù)據(jù)采集可以幫助企業(yè)識(shí)別和解決潛在的風(fēng)險(xiǎn)和問(wèn)題,降低業(yè)務(wù)風(fēng)險(xiǎn)和損失。
什么是風(fēng)控系統(tǒng)?系統(tǒng)是由多個(gè)相互聯(lián)系的元素組成、能完成特定功能的整體。風(fēng)控系統(tǒng)是系統(tǒng)的一種,除了具備系統(tǒng)的三個(gè)特征之外,還具有兩個(gè)特征:一是計(jì)算機(jī)系統(tǒng),包含軟件、硬件、數(shù)據(jù)。二是服務(wù)于風(fēng)控業(yè)務(wù),在風(fēng)控領(lǐng)域使用。風(fēng)控系統(tǒng)的分類(lèi)風(fēng)控系統(tǒng)分為在線系統(tǒng)和離線系統(tǒng)。在線系統(tǒng):即產(chǎn)生真實(shí)業(yè)務(wù)結(jié)果,如審批系統(tǒng);離線系統(tǒng):不產(chǎn)生真實(shí)業(yè)務(wù)結(jié)果,主要作用是展示和分析,如BI系統(tǒng),建模平臺(tái)。典型五大風(fēng)控系統(tǒng)在線系統(tǒng)是做風(fēng)控業(yè)務(wù)的基礎(chǔ)平臺(tái),所以重點(diǎn)給大家介紹在線系統(tǒng):典型五大風(fēng)控系統(tǒng)。審批系統(tǒng)、反**系統(tǒng)、催收系統(tǒng)、征信平臺(tái)、決策引擎。那么,這些系統(tǒng)****的功能是什么呢?以及跟其他系統(tǒng)之間是如何交互的?一、審批系統(tǒng)從客戶填寫(xiě)資料、提交申請(qǐng)到得到申請(qǐng)的**終結(jié)果,中間資料所走的后臺(tái)就是審批系統(tǒng)。審批系統(tǒng)針對(duì)客戶風(fēng)險(xiǎn)做出一系列的評(píng)估,**終得出結(jié)果。**功能模塊:收集數(shù)據(jù)、加工變量、執(zhí)行策略①收集數(shù)據(jù):申請(qǐng)表信息、歷史數(shù)據(jù)、征信數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)等;②加工變量:對(duì)收集的數(shù)據(jù)進(jìn)行變量加工;③執(zhí)行策略:策略的本質(zhì)是數(shù)據(jù)的應(yīng)用,加工好的變量會(huì)傳給策略引擎包,引擎包中的策略開(kāi)始運(yùn)行,**后輸出申請(qǐng)結(jié)果或風(fēng)險(xiǎn)決策。IO卡數(shù)據(jù)采集輸入輸出采集。靠譜的數(shù)據(jù)采集供應(yīng)商
通過(guò)信息化系統(tǒng)的建設(shè),數(shù)據(jù)采集系統(tǒng)能實(shí)現(xiàn)生產(chǎn)和能源利用的精細(xì)化管理。馬鞍山企業(yè)數(shù)據(jù)采集方案
這個(gè)場(chǎng)景通常叫做***,通過(guò)一定的機(jī)制去判斷是否為***啟動(dòng)。有人說(shuō),可以在本地做標(biāo)記來(lái)區(qū)分是否為***啟動(dòng),但Android和iOS系統(tǒng)的設(shè)置都可以實(shí)現(xiàn)“***本地緩存”的操作,難以通過(guò)本地標(biāo)記來(lái)做區(qū)分;也有人說(shuō),可以通過(guò)SD卡完成標(biāo)記,但讀寫(xiě)SD卡需要權(quán)限,實(shí)際操作亦有難度。所以說(shuō),如何區(qū)分用戶是否為***啟動(dòng)存在著技術(shù)上的挑戰(zhàn)。挑戰(zhàn)二:冷啟動(dòng)和熱啟動(dòng)很多時(shí)候,我們會(huì)通過(guò)Home鍵讓App進(jìn)入后臺(tái),但由于時(shí)間過(guò)長(zhǎng)或者系統(tǒng)資源等原因,App可能會(huì)系統(tǒng)被回收,下一次啟動(dòng)其實(shí)就變成了冷啟動(dòng),但是根據(jù)我們之前的定義,它實(shí)際上還是熱啟動(dòng)。所以說(shuō),如何判斷冷啟動(dòng)和熱啟動(dòng)是一件非常復(fù)雜的事情。挑戰(zhàn)三:是否從后臺(tái)恢復(fù)常見(jiàn)從后臺(tái)恢復(fù)方式有兩種:①點(diǎn)擊圖標(biāo)恢復(fù);②雙擊Home鍵彈出應(yīng)用列表,點(diǎn)擊應(yīng)用列表完成恢復(fù)。所以說(shuō),采集方案能否覆蓋以上不同的恢復(fù)場(chǎng)景,對(duì)技術(shù)來(lái)說(shuō)有一定的考驗(yàn),在數(shù)據(jù)分析過(guò)程中也需要去考慮復(fù)雜多變的場(chǎng)景。挑戰(zhàn)四:iOS被動(dòng)啟動(dòng)這個(gè)內(nèi)容很多人沒(méi)有接觸過(guò),也不太了解,這是神策基于某些場(chǎng)景特定發(fā)明的。什么叫被動(dòng)啟動(dòng)?它是iOS系統(tǒng)內(nèi)特有的,比如我們正在使用某個(gè)App,由于一些其他原因?qū)pp轉(zhuǎn)入后臺(tái),過(guò)了一定時(shí)間。馬鞍山企業(yè)數(shù)據(jù)采集方案