提到數據庫可能很多人會很陌生,但是數據庫應用卻滲入我們生活的方方面面,像12306搶票、網上購物、掃碼點餐、搶紅包等都離不開數據庫的支持,可以說數據庫是支撐各類應用軟件運行的基礎,因此數據庫一直以來也被譽為基礎軟件上的皇冠明珠,與操作系統并駕齊驅。
回溯數據庫發展歷程,從追隨模仿國外到國產化自研,中國數據庫行業歷經二十余年技術深耕,發展進化,如今正呈現百花齊放新局面。而這一現象背后有賴于國家數字經濟技術飛升與國內多樣化場景與技術應用發展。尤其是以信創為契機,為廣大數據庫廠商提供了有力的生長發展環境。
自從2020年信創被正式提出后,信創產業發展加速落地,作為信創產業鏈上重要環節的數據庫,經歷了在金融和政企等行業的多輪試點推廣后,中國數據庫行業終于迎來屬于自己的黃金時代。
數據統計,目前全球數據庫企業共計有363家,以中美為主,其中美國有145家,中國次之有116家。另外,據中國信通院測算,2020年中國數據庫市場規模約241億元,占全球數據庫市場規模的5.2%。預計到2025年,中國數據庫市場規模將達688億元,年復合增長率為23.4%。
伴隨著中國數據庫行業的發展壯大,加之國產替代化熱潮催化,目前國內數據庫廠商已逐漸成為能與國外巨頭廠商相匹敵之勢。騰訊云數據庫副總經理王義成曾在接受采訪時表示,目前國產數據庫90%的能力已經成長到可與Oracle等老牌國外數據庫比肩的程度。
誠然,在近幾年國家大力發展數字經濟大背景下,數據庫市場一改過去被國外巨頭壟斷的局面,逐漸顯現后發優勢,尤其當下數據庫在國內多場景應用需求爆發,國外傳統數據廠商弊病凸顯,價格配置昂貴,海量數據的儲存、處理遭遇瓶頸、穩定性與安全性等方面都面臨極大挑戰。而此時,創新數據庫廠商經歷了漫長的技術積累和蟄伏期,如今終于可以大放光彩。
值得一提的是,當下涌現出一大批優秀的創新數據庫廠商,正在依托大數據、云計算等新興技術實現彎道超車,針對上述傳統數據廠商的弊病與痛點,結合本地企業對數據庫的實際需求,他們給出了新的解題思路。
以下是鈦媒體通過廣泛征集和篩選出來的創新數據庫不同場景應用案例,通過對案例的詳細復盤,以期為更多企業帶來數據應用新思考和數字化轉型新思路,
場景一:開源分布式HTAP數據庫 助力地產企業實現業務高效互聯
成立于2015年的PingCAP是國內領先的企業級開源分布式數據庫廠商,云原生和開源是其身上兩大最為顯著的標簽。旗下主打產品 “TiDB”是一款開源分布式HTAP數據庫,結合了傳統的 RDBMS 和 NoSQL 的最佳特性。同時還兼容 MySQL,支持無限的水平擴展,具備強一致性和高可用性。TiDB 的目標是為 OLTP 和 OLAP 場景提供一站式的解決方案。
2020年以來尤其是后疫情時代,各行業數字化駛入深水區,地產行業也不例外,某頭部地產集團在全面開啟數字化的過程中,集團原有的數據庫系統面臨擴容與性能的雙重挑戰:基于公有云RDS提供的MySQL分庫分表方案在業務側增加了應用開發的復雜度,在運維側給DBA帶來了不少運維和管理工作壓力。另外,隨著集團商業、智慧服務、租賃等多元業務開展,集團的應用系統開始為B端和C端用戶同時提供服務,如何打通各業務系統之間的壁壘,建立“全鏈路、全場景、全渠道”的數據鏈接成為集團轉型的關鍵。
因此在選擇合作數據庫廠商時,該集團將開源和云原生作為合作廠商的主要篩選標準,要求數據庫具備彈性伸縮能力,能兼容MySQL的同時實現敏捷開發與便捷運維,同時希望數據庫具備云原生特性,支持跨云部署。、
此外選用開源數據庫可靈活進行業務創新,方便IT團隊快速上手。綜合以上自身需求,該集團經過多重對比測試,最終敲定部署TiDB數據庫以滿足自身業務需求。
首先集團在公有云上部署兩套TiDB集群,用以承載核心業務系統。一方面,TiDB可為企業CRM售賣、租賃、電子商城等業務系統提供高性能的OLTP在線交易支撐,遇到節假日和促銷活動等海量數據高發的場景需求,TiDB所具備彈性擴展能力,可確保用戶線上線下流暢的購物體驗。
另一方面,TiDB可為供銷存ERP系統提供財務報表和計算分析,解決了原來表數量巨大,分析時效不達標的問題。對于租賃、商業和電子商城等業務系統需要支持在線交易和實時統計報表同時進行,TiDB HTAP可進行能力提取、處理和分析業務層應用數據,獲取實時洞察,以達到為用戶提供“千人千面”的創新服務體驗。
業務邏輯架構圖
其次,TiDB打通了該集團不同業務系統之間的壁壘。集團會員在旗下住宅、購物中心、租賃住房、智慧服務和租售等各類場景中消費或參與活動均可獲得積分,10積分抵1元,等級越高,抵扣越多,積分可在集團各業態中使用。
正是基于TiDB的數據同步機制,會員積分在業務系統中實現全面打通,會員在房屋租賃,商場、物業、電子商城等多消費場景的數據都可實時匯總到會員系統中,形成對應積分,助力該地產集團構建了一體化的服務生態閉環。
據了解,在2021年該集團的大促活動期間,有40座城市超百萬的會員和2000多家商戶參與其中,因其超大力度的積分滿贈活動和線上積分紅包雨及積分大轉盤活動,引發海量消費者和訂單涌入系統,數據量達到了平時的10倍以上。但因集團云端部署的TiDB,海量數據存儲處理毫無壓力。借助TiDB彈性伸縮的特性,集團DBA只需根據預估數據量做好資源規劃和配置,提前做足壓力測試,確保數據庫的存儲容量和性能滿足需求。借助TiDB通過高可用架構,自動故障切換、彈性擴容機制等技術手段,保證數據可備份,故障可切換,增量擴容,將活動期間的SQL999始終控制在8ms以內,SQL99控制在5ms左右。
場景二:Kyligence智能多維數據平臺助力金融企業釋放數據潛能 賦能業務
Kyligence是一家專注于大數據領域創新的數據科技公司,由Apache Kylin 核心團隊于2016年創辦,公司致力于打造下一代企業級智能多維數據庫,為企業簡化數據湖上的多維數據分析(OLAP)。Kyligence通過AI增強引擎從核心業務查詢中識別關鍵特征和模式,并自動構建和管理分布式數據集市,為業務提供更可靠的指標體系,進一步縮短數據湖開發流程,釋放業務自助分析潛力。
數字化持續滲透各行業的當下,數字化轉型已成為不少行業發展的新引擎和新方向,金融行業尤其銀行,作為數據高密度行業,始終走在數字化前沿。某頭部股份制銀行(以下簡稱A銀行)正值數字化轉型的關鍵階段,致力于讓信息傳遞變得扁平化、高效流轉,降低數據使用的門檻,讓數據賦能業務。
但隨著數字化轉型的持續深入,A銀行數字化系統逐漸增多,數據分析師/工程師或是一線業務員使用數據的門檻逐漸提高,系統之間數據孤島影響數據流通,導致存在部門信息壁壘,銀行大量的數據資產無法沉淀并進行高效管理運營,導致銀行數據難以賦能業務,數據價值難以實現。
為進一步助力A銀行數字化轉型落地,實現企業數據價值最大化,Kyligence以降低數據使用門檻、打通數字系統壁壘、以數字化提升工作效能為目標,為該銀行提供統一多維數據分析平臺。據了解,該平臺(產品)可為業務分析人員提供低門檻的數據分析環境。其構建分析環境的過程大概可分為啟動、成長、拓展、創新四個階段。
統一多維分析平臺的發展階段
啟動階段:該銀行以架構設計和架構集成為目標,完成了整體的架構設計,實現與原有架構的融合。在不影響現有業務的情況,Kyligence 產品與企業架構進行了無縫集成。上至與 BI 展現平臺的無縫對接,Kyligence 作為 BI 平臺的統一查詢入口,實現與Tableau\Cognos\MSTR\MIP(管理信息平臺) 等友好集成,將大數據分析能力賦予各個應用系統。下至與大數據平臺的融合,充分利用大數據的存儲和計算能力,將數據進行預構建,同時與元數據管控平臺、ETL 調度、自研 BI 設計器等周邊組件進行融合。
Kyligence與企業架構的融合
成長階段:這一階段以平臺能力建設為目標。通過Kyligence多維數據分析平臺,A銀行逐步建設并完善了平臺的可視化分析、靈活自助分析、租戶管理、權限管理等能力,滿足多維、明細、實時等多種查詢場分析場景,并在小范圍的業務場景中進行試點,如績效平臺、用戶畫像平臺、管理信息平臺等多個應用對接,承載現有的業務流量,MAU 數量達到百級。
拓展階段:這個階段以場景拓展為目標,不斷探索適宜的業務場景,并開展相應的推廣和培訓活動。經過第二階段的小范圍試點取得的經驗和成果,引入更多部門加入,將銀行數據在企業內部各部門間實現充分的分享、流通,消除信息孤島,為全行 20 多個部室、80+ 租戶提供數據分析服務。
拓展業務場景
創新階段:這個階段以穩中求進,開拓創新為目標。首先,在現有平臺的基礎上,不斷完善平臺的智能化能力,提升系統的穩定性、查詢性能、數據時效性、成本管理等價值服務;其次,在基于逐漸完善的數據中臺上,根據市場變化不斷探索創新,建設更加完整的數字化運營生態平臺。
通過搭建Kyligence 統一多維智能分析平臺,A銀行實現了數據資產盤活和數據價值整合,降低了銀行業務人員使用數據的門檻,實現部門之間數據分享與高效互聯,同時為銀行提供高性能敏捷的數據分析,極大提高了員工作業效率。
據A銀行相關負責人表示,經過這幾年Kyligence平臺搭建與運營,截至 2021年底,統一多維智能分析平臺已為全行 40%的業務人員提供低門檻的數據分析服務。降低了重復事務,釋放生產力,全行機房維護單同比下降 45%;將 IT 人員從繁瑣的重復性事務中釋放出來,同時數據提取的效率從原先5天縮短至1小時,效率提升了百倍;同時提高人效,縮減開發資源:提升報表開發效率,報表開發周期從原先的5天縮短到1天,研發報表開發投入資源下降幅度超15%。最后,縮短了數據分析周期,將數據分析的平均周期從 5 個工作日下降至小時級,數據分析的效率從原先的24小時級縮短到10秒內,查詢性能提升了近萬倍,極大提升業務用戶的體驗。
場景三:TigerGraph圖計算技術與機器學習結合解決電信行業通信欺詐類難題
TigerGraph是一家企業級可擴展圖數據庫廠商,旗下TigerGraph是一個基于關聯數據(圖模型)的高級分析和機器學習平臺。基于分布式原生圖數據庫,TigerGraph可以支持高級分析和機器學習應用,如欺詐檢測、反洗錢、實體解析、推薦引擎、知識圖譜、網絡安全、供應鏈、物聯網和網絡分析等。公司的使命是通過圖和人工智能為企業基于大數據提供創新的分析能力,幫助客戶連接數據孤島,進行更大規模、更深入的運營分析,從云端和本地的數據中發現新的業務洞察。
移動互聯網時代,電信欺詐無處不在,不僅給廣大用戶帶來了財產損失,也讓電信公司面臨品牌受損、客戶流失等風險,另外近幾年伴隨信息技術的快速發展,電信欺詐手段也隨之升級并呈現多樣性,讓用戶防不勝防。而傳統的反欺詐解決方案并不能完全應對,尤其對于利用GOIP設備進行多個手機號通話,群發消息、遠程控制,從而達到隱藏身份、逃避打擊的情況,目前國內案件偵破困難,周期較長。
此外“一人多號”和“實名不實人”情況也在生活中非常普遍,對于國內安防和管理產生巨大挑戰。中國移動作為全球網絡規模最大、客戶數量最多的電信巨頭,也深受電信詐騙之害,在與TigerGraph合作的過程中,基于上述電信行業的痛點與難題,TigerGraph通過搭建通信實時反詐系統和運用圖分析計算技術分別針對四個場景制定相應的解決方案。具體部署實施如下:
在線通信實時反欺詐:在這個場景中,TigerGraph 為中國移動搭建在線通信實時反欺詐系統,包括黑號識別、模型打分、基于圖的特征提取等多個模塊。同時TigerGraph圖特性可以和機器學習結合,可以做到實時 (毫秒級別) 返回特征收集與模型打分結果,支持圖遍歷和聚合信息,實現一次遍歷收集多種復雜圖相關特征,并且可在已有圖的基礎上增加新的節點和邊,使數據結構跟得上業務變化,有效地提高欺詐偵測準確性。
從性能和結果來看,TigerGraph使得在關系型數據庫中無法處理的場景得以實現,比如可以:全量處理全省每天所有通話數據,在TigerGraph中生成通話網絡圖,規模為頂點10億,邊150億;每日3億次更新,峰值時每秒1萬條邊更新,查詢平均響應時間0.5s;基于TigerGraph對關系特征的優異計算能力,系統實現了實時(毫秒級)返回118個基于圖的特征收集和模型打分結果;2分鐘識別惡意號碼并推送到消費者,白號準確率99.99%+,黑號準確率80%+。
個性化視頻推薦:個性化推薦能力當下已成為數字時代的營銷利器,并深入各個行業應用,企業對實時推薦需求也日益增加,中國移動為達到給客戶提供實時精準的內容推薦目的,通過TigerGraph搭建知識圖譜引入圖分析技術深入挖掘用戶行為偏好及資訊信息,基于Kakfa Loader獲取到用戶的實時閱覽內容,通過多跳數據分析改進用戶細分和推薦引擎,改善了推薦影片的質量。
同時,“實時”響應方面,利用圖計算系統可將數據實時傳輸到Hadoop系統、傳統數據庫倉庫或者其他外圍系統。借助TigerGraph 圖計算系統,針對點播數據以及用戶關系數據進行實時處理,再通過TigerGraph圖數據庫來計算分析千萬級用戶的點播特征數據與實時數據關聯分析。
一人多號:針對“一人多號”的普遍現象,通過TigerGraph圖分析計算技術可以篩出的可疑號碼,找出該號碼一段時間內的位置軌跡,從而找出那些相同時間段內軌跡擬合度最高的號碼。此場景中主要的挑戰在于要根據用戶一段時間的行為軌跡,比如一個月,基于相似度算法查找出相似的號碼。之前該客戶用了10倍的硬件資源,都無法得到計算結果,而借助TigerGraph的超高速的計算效率,僅用一臺機器便可完成計算任務。
實名不實人:當前電信網絡詐騙持續高發的一大根源,就是因為大量“實名不實人”的銀行卡、電話卡被騙子購買后實施詐騙。對此,中國移動借助TigerGraph 圖計算分析技術,打造了一套專業的系統,包括三個模型,分別是常駐地分析、交往圈分析、同時通話分析模型,這三個模型互為補充,從而可以準確判斷號碼是辦理人在使用,還是辦理人的家人在使用,還是轉賣給了其他人使用。
上述四個場景共同的底層技術邏輯就是圖計算和機器學習結合的創新方式。不管是在線通信實時反欺詐,還是個性化視頻推薦、一人多號,還是實名不實人的場景中,都采用的是基于圖的特征提取。因此在實時反欺詐中,基于全省級的通話數據,TigerGraph 可以毫秒級返回118個基于圖的特征收集和模型打分結果,為機器學習生成新的訓練數據來檢測電話欺詐,從而很好地提高了機器學習模型的精準度。
同時,基于深度圖關聯得到的圖特征進行機器學習預測時,可以通過對比判斷識別“欺詐者”真實身份,大幅地降低了誤判比例。最后,基于圖特征的收集,即使是面對全省級的通話數據量,TigerGraph 仍然可以做到毫秒級地收集和打分,接近于實時。
場景四:TDengine時序數據庫滿足車企數據存儲、查詢和擴容需求
濤思數據(TAOS Data)是一家專注時序空間大數據的存儲、查詢、分析和計算的數據庫廠商,近幾年公司瞄準日益龐大的物聯網數據市場,開發出了擁有自主知識產權、100% 自主可控的開源、高性能、云原生的時序數據庫 TDengine,可廣泛運用于物聯網、車聯網、工業大數據等領域。
目前,TDengine 已經演進到 3.0 版本,成為一款真正的高性能、云原生的時序數據庫。在云原生的加持下,TDengine 3.0可解決困擾時序數據庫發展的高基數難題,支持 10 億個設備采集數據、100 個節點,支持存儲與計算分離,并打造了全新的流式計算引擎,無需再集成 Kafka、Redis、Spark、Flink 等軟件,大幅降低系統架構的復雜度,真正成為了一款極簡的時序數據處理平臺。同時,TDengine 3.0 還將存儲引擎、查詢引擎都進行了優化升級,進一步提升了存儲和查詢性能。
作為國內近幾年迅速崛起的“新能源三杰”,蔚來汽車為了給用戶帶來更好的補能體驗,在加電基礎設施上進行了大量的投入,在全國布局大量的換電充電設備,而為了對這些設備進行高效管理,需要將設備采集數據上報至云端進行存儲,并提供實時數據查詢、歷史數據查詢等業務服務,用來做設備監控和分析。
為滿足上述業務需求,蔚來在業務最初采用的數據選型是MySQL + HBase,MySQL 存儲設備最新實時數據,HBase 存儲設備原始數據。但隨著換電站和超充站等設備在全國的快速布局,設備數量持續增長,積累的數據越來越多,長時間跨度的數據查詢也遭遇瓶頸,加之查詢場景不斷豐富,HBase 已經無法滿足當前業務需要。
因此蔚來能源接觸了當下流行并且更適合物聯網業務領域的時序數據庫,在選型最初采用了OpenTSDB,OpenTSDB 是在 HBase 基礎上做了優化,其底層技術還是基于 HBase 的,HBase所存在的一些問題,OpenTSDB 依然會有,并不能從根本上解決蔚來能源在數據存儲查詢上的難題,于是蔚來能源嘗試采用時序數據庫 TDengine,TDengine 具備的以下特點能夠很好地解決其遇到的痛點:
?引入超級表概念對應設備類型,對每個設備創建子表繼承超級表,通常相同設備類型的設備數據模型一定相同,通過超級表管理 schema 直接對子表生效,使用上很方便,同時對每個設備建表可以很好地做數據隔離,避免互相影響。
?采用多級存儲,不同時間的數據使用不同存儲介質,新數據由于經常訪問存 SSD 保證效率,老數據存 HDD,節約成本。
?不依賴任何第三方軟件,集群安裝部署方便,支持靈活擴容。
?可提供多種聚合函數,支持對數據的聚合查詢。
之后,蔚來能源做了一系列簡單的性能測試,評估其是否能滿足自身業務需求,測試結果如下:采用批量寫入數據方式,調整合適的單批次數據量大小,使用單機部署(8 核 32 GB,500 GB 存儲)默認配置的 TDengine 服務,RESTful API寫入方式,在 4k 并發流量下寫入沒有問題,同時消費積壓數據時峰值達到 7 k/s,因為單條消息包含信息量太大,實際處理中會拆分為 30 條寫入 TDengine,所以實際寫入 QPS 為 210 k/s,比滿足同樣數據流量的 HBase 集群規模要小不少。
測試完畢,蔚來能源隨即進行數據遷移,將線上部分設備的數據切換到 TDengine 集群,上線后集群表現穩定。
對比之前使用的 HBase,查詢速度提升明顯,從使用 HBase 查詢單設備 24 小時數據的秒級返回,到使用 TDengine 查詢相同數據的毫秒級返回;每天增量數據占用的存儲空間相當于原來使用 HBase 時的 50%;集群計算資源成本相比使用 HBase 節省超過 60%。
TDengine 與 HBase的對比
蔚來能源相關業務負責人評價該項目的應用成果時表示,TDengine 讀寫性能表現很好,在滿足我們業務需求的同時,極大程度節省了計算資源和運維成本,目前嘗試 TDengine 的業務場景都比較簡單,只是單純的數據寫入和時間范圍查詢,后續希望可以結合 TDengine 更多進階功能探索其他可以落地的業務場景。
場景五: AtomData助力制造企業實現產線數據高效流通與分析
石原子科技是國內領先的全場景數據價值服務商,公司基于自研的數據庫存儲與計算引擎,打造下一代全球領先的企業級云原生實時數倉,為全球客戶提供低成本、超大規模、高性能的海量數據處理和分析服務,并可利用公有云中的強大功能創建數據云。
在針對海量數據分析場景中,石原子自主研發的企業級云原?數據倉庫產品“AtomData”可解決對千億級數據進行即時的(毫秒級)多維分析、透視和業務探索。同時AtomData具備云原?、?彈性、?融級?可?、端到端數據安全、兼容MySQL語法和ACID等重要特性,旨在通過構建原?于云端并專注于數據倉庫的SaaS服務來最?化數據價值。
某鋰電池制造公司作為業內領先的智能電池科技企業,多年來專注于以智能物聯突破動力電池性能與應用邊界,打造更多智能場景,讓電動汽車參與到碎片化的可再生能源系統。
該集團的三個工廠有獨立部署生產制造執行平臺MES以及針對溫度與濕度的物聯網實時采集平臺,在其生產運營過程中雖可正常進行數據記錄、分析和監測,但三個工廠的數據只能做到簡單匯聚,在生產分析時效性、產品質量追溯上面臨著巨大挑戰,另外由于工廠生產設備較多,核心設備作為產量和品質的關鍵,運維效率低且成本高,產能的擴張也給車間管理和生產過程管理帶來極大難度。品控方面,因生產過程中電池品質極易受環境設備影響,難以把控每道工序各個細節以達到高度的一致性。
針對以上該制造業的痛點所在,石原子重點從設備管理和生產運營兩方面入手,對其進行方案設計:
其一是針對設備健康分析,可借助AtomData平臺,實現IOT數據與設備健康數據匯聚,自動監測設備運行狀態,通過設備運行建模,實現預防性維修提供支撐。
其二是生產運營分析方面,通過SAP與制造執行等系統數據源,對產品、工藝、質量、供應鏈等數據,進行建模分析,實現生產全流程可視、可溯、可控,助力精益、柔性制造;實現產品質量的全鏈路分析與質量追溯分析。
實施方案如下:
將三個工廠分別通過專線接入,搭建大數據存儲與分析中心,基于安全角度考慮,該中心只能通過工廠專線進行訪問,不提供公網訪問。
使用數據集成服務,根據調度計劃,將三個工廠中的Oracle存量/增量的生產數據、My SQL實時溫度/濕度數據同步至AtomData中。
借助ETL工具,對工廠同步過來的數據執行去重等數據清洗,再存入AtomData,設置數據保存180天。此外,借助BI快速實現商業智能,實現精美的效果展示。
在該方案實施過程中的主要難點在于該企業使用的MES平臺存量數據量較大(10TB/生產線),實時增量數據一般,并且數據類型較多(包括除了結構化數據「主要來源于ORACLE、MySQL等」,還包括時序數據「溫度、濕度;實時呈現最新的時點數據,同時呈現24小時的變化趨勢。
而前期通過MySQL來存儲、查詢效率太低,無法支撐業務場景,非結構化數據「比如,圖像圖片基本上大于250M,需要對圖片打標分析、焊點、設備調參等」),又要實現實時和準實時的分析,才可以滿足作業層面的快速調整與優化,因此該企業的核心訴求主要聚焦在數據攝入速度足夠快和延遲足夠低兩個關鍵點,即:從工廠采集到進入分析應用的數據同步延遲小于1分鐘;數據分析的計算時間小于10秒。
最終,通過搭建AtomData數據庫,該制造企業成功克服了方案實施難點,不僅成功達成了同步延遲小于1分鐘、分析結果小于10秒的預定目標,還實現了設備運維效率提升,通過全過程管控,品質異常處理效率提升,良品率也進一步提高。同時,產品全生命周期端到端集成,決策模式由過去的“經驗驅動”向“數據驅動”轉變,生產執行效率也大幅度提升。
來源:鈦媒體APP
IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
創客100創投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯網IT、傳媒知名企業和個人。創客100創投基金對IT、通信、互聯網、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。
小何
小何
小何
小何