電網企業是天然的資產密集、技術密集型企業,實物設備數量龐大、種類繁多,建設和運維管理復雜程度較高。電網實物資產主要包括架空輸電線路、電纜輸電線路、變壓器、換流設備、配電線路、配電設備、自動化控制設備及儀器儀表、生產管理用工器具、運輸設備、輔助生產設備及器具、房屋及建筑物等有關資產。在電網企業資產結構中,實物資產所占比例高達80%以上。
隨著電網投資不斷加大,電網企業實物資產規模持續增長,加強和提升電網實物資產管理水平愈加成為實現電網科學有序規劃發展、保障電網安全運行和提升資產利用效率的重要手段。在管理信息化水平快速提高、經濟性越來越受到重視的背景下,急需實現由傳統只注重技術屬性的“設備管理”到綜合考慮價值和技術效益的“實物資產管理”的轉變。
近年來,全壽命周期成本(life cycle casts, LCC)管理方法應用逐步深入,它從項目的長期經濟效益出發,全面考慮使資產的全壽命周期成本最小?,F有電網全壽命周期資產管理的研究大多圍繞管理體系、評價指標分析開展,或針對某一環節、某一具體設備提出改進的管理方法和模型。
田洪迅等人綜合全壽命周期成本,構建了資產管理決策框架體系。尤菲等人通過集對分析法建立了電網實物資產的綜合分析評價模型,實現定量評價和具體分析。王申華和孫袆等人基于管理實際,分析了現有資產管理評價體系的問題議。吳貴義等人在設計高壓斷路器時采用凈現值法(net present value, NPV)得到基準年成本,建立了以年均全壽命周期成本最小為目標的高壓斷路器經濟壽命評估模型。劉亮等人采用工程估算法,將項目基本費用單元進行工程估算后疊加求解LCC費用,并作為輸電線路選型的依據。Zhang G等人建立了具有全壽命周期分解和成本分解結構的全壽命周期成本綜合評價模型。
以上學者對資產全壽命周期理論方法在電網資產管理方面的應用展開了研究,推動了資產全壽命周期理論的深化應用。
隨著資產規模的積累,海量數據處理成為電網實物資產管理中的難題。沈園和常屹等人指出大數據技術能夠實現海量數據的識別、提取、分析和處理等,在電力行業設備管理及評估方面具有戰略意義,但未涉及具體的實現方案。
楊璽等人基于大數據技術建立了輸變電一次主設備的資產墻模型。王健提出智能電網大數據系統結構設計方案。諶迅等人設計了大數據資產管理系統,包括資產目錄及其子系統,數據稽核規則、流程及評分辦法等模塊;大數據技術在電網資產管理中的引入和逐步深化,促進了電網實物資產定量管理。
鑒于上述問題,本文建立了一種基于大數據技術的電網實物資產分析評級系統。該系統通過綜合運用多種大數據存儲和分析技術實現了海量數據的獲取、存儲、分析和展現,提出了一種基于ID- CROSS算法實現的大數據定位、識別和演算,同時設計了一種數據解析鏈路,以簡化數據加工處理過程。
該系統實現了實物資產分析評價過程的自動化,降低了工作難度,提高了工作效率與分析的準確性。目前,該系統已成功在電網企業應用,并在實踐中逐步得到了完善,使系統具備廣泛的應用前景,亦可為類似大數據分析系統提供參照。
電網實物資產管理的目標是實現電網實物資產(技術)狀態準確,使資產賬簿(賬)、資產卡片(卡)、設備臺帳(物)動態一致,資產安全完整。電網實物資產評價工作針對資產管理中的核心問題,對電網實物資產規模、資產結構、資產狀態、資產效率(負載)、資產缺陷等現狀進行分析,同時開展“資產墻”分析、設備的經濟壽命分析。
實物資產分析評價是一系列海量數據的獲取、分析和展現的過程。首先,確立電網大數據的來源,定義原始數據的來源和收集粒度;然后,建立實物資產分析評價指標體系,明確各指標的定義與計算方法;再次,定義實物資產分析維度,統一多來源的數據的維度值,計算相關指標;最后,設計分析評價結果的展現工具。
1.1 數據來源
實物資產分析評價的來源數據產生于建造、購置、運行、備用、維護、改造、報廢等多個環節之中。電網企業實物資產原始數據取自于多個信息化系統,包括:
1)工程生產管理系統(power production mangement system, PMS)2.0。該系統主要匯集了生產類的實物資產設備臺賬和運行數據,設備臺賬記錄了資產的物理位置、技術型號細節、投運時間、再利用情況等信息。運行數據包括運行狀態、健康狀態和缺陷記錄,生產此部分數據的單位主要是區縣級公司。
2)企業資源計劃(enterprise resource planning, ERP)系統。該系統主要匯集了實物資產規模、項目、費用數據,資產規模數據包括資產原值、凈值和數量,項目數據包括資產新增、報廢退役時的項目信息,費用數據主要包括運維成本、大修搶修費用、報廢處置成本等。生產此部分數據的單位主要是省級公司和地市級公司。
3)能源管理系統(energy management system, EMS)。該系統提供了主網變壓器的運行負載率信息。
4)調度系統。該系統提供了4類主要輸電設備的強迫停運數據。
5)營銷系統。該系統提供了各級電力公司的售電量數據。
處理來源數據時需要特別注意幾個方面:①統一多系統數據的格式,在獲取數據后,將數據中的管理單位、分類編碼、電壓等級、狀態、數據時間粒度和數據單位轉為相同的編碼;②統一數據的統計口徑,避免同一資產數據被系統多次重復計數;③清洗異常數據,上述各類業務系統中由于管理、錄入等問題,難免會存在一定比例的異常數據,需要在獲取后進行識別和清理。
1.2 指標體系
基于資產全壽命周期管理,構建電網實物資產評價分析工作一覽圖,如圖1所示。通過開展電網實物資產評價,一方面為生產經營的中長期規劃提供基礎信息,為資產管理的持續深化奠定基礎,提高資產的利用效率和資產貢獻;另一方面為健康運營提供科學管理的策略,優化電網各類設備資產配置。
圖1 實物資產分析評價工作一覽圖
電網實物資產評價分析內容分為5部分,即資產規模結構、資產健康水平、資產利用效率和資產退役報廢分析。指標體系是建立在以評價維度為主線的基礎之上,對評價維度的深化與豐富。基于“三集五大”體系建設成果,針對評價的四大維度搭建指標體系,如圖2所示。
該指標體系基于LCC的思想構建,考慮了資產從采購轉資到報廢各個環節的關鍵因素。
1)資產結構。指對電網實物資產的存量、增量從價值規模和技術規??趶竭M行分析,能夠反映企業擁有資產的數量和質量。
圖2 實物資產分析評價體系
2)利用效率。指對電網實物其處于運行階段實物資產的運行效率進行分析。通過對利用效率分析,可以了解資產整體利用狀況及單體運行效率,為資產配置優化和提升效率提供數據支撐。
3)健康水平。指對電網實物資產的缺陷以及強迫停運情況進行分析。
4)退役報廢。指對電網實物資產中退役報廢資產的價值規模水平、處置況以及成因進行分析。
1.3 分析維度
分析維度是相關對象(稱為屬性)的集合,用于提供有關一個或多個多維數據集中的事實數據的信息。在實物資產分析評價中,主要的分析維度包括地區、公司、年份、資產類型、電壓等級、缺陷資產分類、缺陷部位、缺陷責任原因、缺陷技術原因、再利用與備品備件資產分類等基本維度:
①單位維度,是指實物資產的歸屬單位,在部分系統中稱之為利潤中心;
②資產類型,是指實物資產在電網中所屬的分類;
③電壓等級,是指電網運行中所采用的額定電壓等級,包括交流與直流2類;
④缺陷部分,是指主變壓器、斷路器、隔離開關等19類主要運行設備常見缺陷所發生的部位;
⑤缺陷原因,是指19類主要運行設備缺陷產生的具體責任原因和技術原因。
實物資產分析評價的展現方法主要是基于圖表的多維度對比展現,如圖3所示。通過對實物資產進行多維度的分析,充分地了解整體資產的價值規模和數量規模,對資產目前的利用狀態、健康狀態和退役報廢情況有一個清晰的認識,并且依據獲取的多維數據,開展應用設計,深度挖掘資產關聯趨勢和深層次問題,從而為公司未來決策提供可靠的支持。
圖3 實物資產分析評價展現過程
2.1 需求分析
實物資產分析評價需要采集多個業務系統數據,并對數據進行統一的數據格式、粒度、單位、維度值轉換,實現數據的多維統計、溯源和分析功能。系統的設計要求包括以下4個方面。
1)多層級應用。本系統實現多層級數據管理功能,同時服務于省、市、縣公司,提供多維度指標分析。
2)擴展性。系統設計充分考慮了擴展性,以適應新的業務需求,為潛在的新增分析指標做好了擴展兼容準備。
3)實時性。通過系統的建設和實物資產評價,可以做到實時獲取原始數據、實時統計分析指標和生成報表報告。
4)閉環管理。采用閉環管理思想,可通過系統反饋資產評價工作優化效果,實現數據獲取、資產評價、資產考核、問題改進、任務跟蹤和任務比較。
2.2 功能架構
系統所采用的大數據挖掘技術主要體現于多數據源管理、數據清洗和多維分析展現技術。系統的功能包括數據源、數據管理、數據填報、數據展現、報表報告展現和系統管理。系統功能架構如圖4所示。
圖4 系統功能架構圖
來源數據是系統外部數據經過數據源模塊加工后獲取的數據,在系統中以虛擬的數據表形式存在。分析評價工作是以ERP-AM/PM、PMS、EMS、輸變電設備可靠性管理系統等系統中的數據作為基礎的,因此需要實現從多種系統中獲取數據的功能。
本系統將數據的管理對象定義為來源數據、數據中心中間表數據、基本維度數據、系統配置數據和輸出數據5個部分,根據數據的特點設計存儲和操作管理方案。
數據中心中間表數據是經過轉換和清洗后,以實物資產分析指標體系構建的中間表數據,其特點為數據與分析所需的最小粒度、分類編碼一致。基本維度數據是指所有的維度表,包括公司維度表、資產分類維度表等,用于對系統進行維度轉換的統一。系統配置數據包括數據展現視圖、數據報表和報告結構定義數據,用于控制數據輸出內容。
數據輸出數據以實物資產分析框架為主題建立,用于保存經過分析處理后的數據。通過對業務數據源數據的轉換、清理和加載后,系統中形成原始模型數據,用于報表和報告的最小數據粒度數據。通過原始模型數據和維度數據及指標數據構建縱橫交織表格視圖,形成結果數據模型。
2.3 數據庫設計
采用非關系型數據庫與傳統的數據庫實體關系模型(E-R)的實現方式不同。本系統的數據庫結構是一種流程化的模塊,如圖5所示。
圖5 數據庫結構圖
其中原始數據表是對應的外部業務系統數據,包括了Web應用程序連接、DB連接、Excel文件連接3種方式。中間表是依托于原始數據進行創建的,在創建之前需根據需求在數據庫中定義好字段,可將多張原始數據表進行整合成需要的中間表。中間表是結果表及透視表的基礎。
結果表是以中間表為基礎,在創建之前需先根據需求在數據庫中定義好字段,對中間表的數據進行初步計算,得到需求數據。結果表與中間表數據是以指標屬性進行關聯的。
透視表是根據頁面展示需求,確定需要展示的數據,再依托于中間表、結果表進行計算處理,輸出最后滿足需求的數據。
3.1 系統架構
本系統采用了輕量級Java企業版(Java platform, enterprise edition, Java EE)架構設計,底層使用Spring、Struts2和Hibernate框架進行支撐和B/S架構設計,易于部署,免安裝客戶端,方便升級維護。該方案對軟硬件環境的要求低,且開發效率高,是當前主流的Web應用開發框架。
基于Java EE的Web工程需要一個容器,本系統所選用的Web容器為Tomcat。Tomcat就是JSP/servlet容器,它實現了Java EE的一些接口,具有高性能、高并發、低成本等特性。此外,系統采用了Maven框架進行持續集成,將系統開發與部署進行了緊密結合,提高了系統發布的效率和頻率。系統架構如圖6所示。
圖6 系統架構
核心應用是在系統框架層面對Java EE的擴展,對數據庫和系統操作采用了對開發者更加友好的函
數封裝。同時,將日志、異常處理、緩存管理、Session操作、Cookie操作等企業應用平臺通用功能需求進行擴展和封裝。此外,還提供了應用平臺開發所需要的算法工具集和數據結構工具集,幫助開發者提高項目開發效率。
核心應用層提供了組件系統與Web Service接口的應用程序編程接口(API)系統。該系統可用于定義直接以核心應用為起點所進行的應用開發組件的標準化架構,以及業務功能的Web Service接口。
業務組件是以核心應用為基礎所建立的標準化架構模塊和組件集合,其內容涵蓋系統管理模塊、消息傳送模塊、用戶模塊、組件模塊、內容管理模塊、主題管理模塊、商業智能組件和工作流組件。后端與前端是面向業務組件系統以模型-視圖-控制器(MVC)模式實現的表示層范例,后端與前端均以主題文件包的形式進行封裝,可靈活地進行二次開發與擴展。
在大數據框架方面,數據源模塊的設計思路采用了提取-轉換-加載(extract-transform-load, ETL)結構,采用了HBase數據庫結構和MapReduce數據分析工具集作為支撐,實現了海量數據的存儲分析。
1)ETL數據管理
數據源模塊的設計思路采用了ETL結構。ETL是指從源系統中提取數據,將數據轉換為一個標準的格式,并加載數據到目標數據存儲區,通常是數據倉庫。ETL主要通過數據庫引擎來實現系統的可擴展性,可保持所有的數據始終在數據庫當中,避免數據的加載和導出,從而保證效率,提高系統的可監控性。通過對相關數據庫進行性能調優,ETL過程獲得3~4倍的效率。
本系統將數據的過程劃分為數據獲取、數據轉換和數據加載3個環節。本系統通過ETL功能模塊的開發完成了前述多個系統數據的統一采集與數據導入,在數據源處理中制定了一系列統一規則,包括數據交叉關聯對照規則、數據清洗規則和矛盾數據核查規則。
2)HBase數據庫
HBase是一個開源的非關系型分布式數據庫(NoSQL),實現的編程語言為Java,提供了BigTable規模的服務。HBase在列上實現了BigTable壓縮算法、內存操作和布隆過濾器。因此,它可以容錯地存儲海量稀疏的數據。對于海量的實物資產數據,其特點是以資產編碼作為ID,隨著時間的推演而不斷產生新的數據。
傳統的關系型數據庫需要采用多行數據來描述一個資產,而HBase作為非關系型數據庫,只需要用一行數據即可描述資產,因為非關系型數據庫的數據列可通過時間戳記錄數據的變化,只有實際發生了變化的數值才會占用新的空間,可大量節省存儲容量。
3)MapReduce數據分析工具集
MapReduce是一種編程模型,用于大規模數據集的并行運算,也是分布式數據處理模型,可實現下列數據挖掘算法:
(1)文本統計分析(比如報告內容的WordCount、詞頻TFIDF分析)以及運維檢修數據分析等。
(2)海量數據挖掘以及非結構化數據、時空數據、圖像數據的挖掘。
(3)機器學習,監督學習、無監督學習、分類算法(如決策樹、安全語音模塊SVM等)。
可將MapReduce處理數據過程主要分成兩個階段,即Map階段和Reduce階段。首先執行Map階段,再執行Reduce階段。Map和Reduce的處理邏輯由用戶自定義實現,但要符合MapReduce框架的約定。系統采用MapReduce數據分析工具集,可以開發大量數據展現圖形。
3.2 ID-CROSS算法的實現
為了滿足實物資產分析評價過程中需要分析大量指標的問題,本系統采用一種數維交叉(index- dimension cross, ID-CROSS)算法,專門用于解決指標在大數據存儲空間中的定位問題。ID-CROSS算法其原理是,將指標作為數據空間縱軸,維度作為數據空間橫軸。
若指標和維度在同一BigTable中出現交叉,則認為制定的指標在當前維度下有效,其原理如圖7所示,通過數據行模型、數據列模型和數據表模型,進行多維交叉計算。
圖7 ID-CROSS算法示例圖
設Cell為目標單元格,table為當前數據表,index為目標指標,dim為目標維度值。當矩陣中只有一個與目標維度相關的維度時,其定位方法為Cell=table.position(index,DIM(dim1,dim2,dim3...))(1)
若矩陣中有多個單元格與目標維度相關,則需要進行降為處理,其處理方法為Cell=SET(indexValue,dim_1,dim_2,...,dim_(i-1),dim_(i+1),...,dim_n)=dim_reduction(SET(indexValue,dim_1,dim_2,...,dim_n),dim_i)(2)
式中:dim_ j(j=1,…,n);各自的定義域為DOM_ j= {dom_1,…,dom_(l_ j)(l_ j取大于1的整數)}。
3.3 數據解析
數據解析鏈路是一種將數據處理過程化的方法,其要求是將數據處理過程分在不同的塊中,將每一個塊的輸出作為另一個塊的輸入。在本系統中,實現的模型如圖8所示。
在本系統數據鏈路中,元數據表對應于外部系統的來源數據,包括其他系統業務數據庫、數據文件和Web站點等。元數據表被加工后,將數據傳送至中間數據表,中間數據表負責對數據進行存儲,保存在數據倉庫中。
中間表將需要進行初步降維和運算的數據傳送至結果表,該步驟的目的是減少后續查詢的運算量,以提高數據處理速度。結果表將需要進行統計運算的數據傳送至數據透視表,實現數據的透視分析功能。最后,透視表將數據傳送至數據展現表,實現各類數據分析圖表的生成,并分別輸出到數據展現頁面、Word報告和Excel報表中。
圖8 數據解析鏈路
在電網實物資產評價中,本系統生成了某省電網公司地市及省公司十大類實物資產的重要報表與實物資產分析評價報告。全部數據的處理過程僅需要10min即可完成。數據準確性較傳統的人工方式統計有極大改善。圖9和圖10分別展示了實物資產分析評價系統資產概覽總體圖和下屬二級單位關鍵績效指標對比圖。該系統能夠動態展現實物資產分析評價結果和關鍵考核指標。
圖9 系統資產概覽總體圖
圖10 下屬二級單位關鍵績效指標對比圖
通過將大數據技術應用于實物資產分析評價系統的設計,解決了傳統的業務分析系統開發所面臨的空間和效率問題,同時借助于開源框架簡化了開發復雜性。主要結論包括:
1)提高電網企業實物資產評價報表及報告書中實物資產重要指標信息統計結果的準確性,避免了人為操作的不確定性。
2)通過信息化手段,提高了實物資產管理信息統計分析工作效率,節省大量人力,實現對電網主要實物資產的常態化、實時化、規范化與信息化的監控管理,為實物資產管理工作決策的制定提供了有力的量化數據支持。