鐵路列車在其運行的全過程中,不可避免地受到來自鐵路系統內部與外部的一些擾動,這些擾動可能源于設備故障、交通事故、極端天氣等,也可能源于非預期車流或考慮不周的調度指揮。擾動對列車運行造成的影響是一個不斷累積的過程,鋪畫合理的運行圖是在一些區間、站點設有一定的冗余時間,以吸收和緩解擾動對列車運行造成的影響。而無法通過冗余時間吸收的擾動將持續累加,最終導致列車無法按圖準時行車,因此,列車晚點現象產生。
列車在發生晚點后繼續行駛,部分晚點現象可以通過區間趕點、壓縮停站時間等方式得到改善甚至是消除;另一些沒能得到緩解的晚點可能會一直持續,甚至因后續的擾動影響而進一步惡化;還有一些晚點是在列車之間的相互影響作用下于路網中傳播。
晚點演化就是在列車運行過程中,晚點產生、傳播、持續、惡化、恢復的全過程。高速鐵路列車具有旅速高、開行頻次多、開行密度大的特點,這意味著晚點一旦發生,就會產生復雜而劇烈的演化,故傳統的理論方法難以對其進行有效的研究。
既有的高速鐵路列車晚點研究主要圍繞晚點分布、晚點仿真生成、晚點傳播鏈構建、晚點恢復等方面展開。
受北方降雨影響全國高鐵大部分晚點
在晚點分布方面,劉巖等分析了列車實際區間運行時分、列車區間運行時分、停站時分與列車晚點之間的關系。Briggs等基于英國鐵路列車運行數據進行了晚點分布的統計,建立了全部晚點的q指數分布模型。劉健等以京滬高速鐵路實績數據為基礎進行列車運行仿真,得到了突發事件的發生概率。Yuan等構建了列車晚點傳播模型,通過理論推導預測列車在車站的到達時間分布。Xu等基于列車運行實績數據,繪制了高速列車晚點的分布曲線,但其研究并未建立起致因—初始晚點時長的相關模型。莊河等基于廣鐵集團高速列車運行實績,研究不同致因情況下初始晚點時長的分布模型。
有關晚點傳播過程、列車延誤模型、列車晚點恢復方面的研究尚且沒有一套完整的理論體系,孟令云等提出一種基于列車運行實績數據挖掘的列車晚點傳播過程構建方法。姜雯、李曉娟等將高速鐵路列車運行過程作為離散事件系統,并采用極大代數的方法建立列車延誤仿真模型。黃平等提出基于列車運行實績的列車晚點恢復模型,分析高速列車初始晚點恢復的影響因素,建立了初始晚點恢復的隨機森林模型。
從已有研究分析來看,基于列車運行實績進行高速鐵路晚點演化相關問題的研究尚不成熟,雖然這些研究均指出基于高速鐵路列車運行實績數據對于運輸組織優化問題具有重要的作用,但少有對晚點演化過程全面整體的認知,關于高速鐵路晚點演化預測、規律的研究暫時處于起步階段。
近幾十年來,隨著計算機性能飛躍般地提升,人類收集、存儲、傳輸、處理數據的能力也取得了里程碑式的突破,對數據進行深層挖掘、分析利用的機器學習算法也受到了前所未有的廣泛關注與應用。機器學習算法通過對大數據進行預處理、降維、特征提取與關聯,可以揭示深藏于數據之中的機理與規律,從而完成對現實具體問題的指導。
隨著鐵路信息化發展,列車運行實績數據的收集工作日益完善。高速鐵路有著更加先進、健全的信息管理系統,列車運行信息的收集也更加精細化與標準化。龐大的列車運行實績數據成為了分析列車運行狀況、線路基礎設施運用狀況的寶貴資源,高鐵列車晚點演化的過程及其深層次的演化機理也蘊藏其中。
為此,本文嘗試構建基于機器學習的晚點演化預測模型,通過對高鐵列車運行實績數據的特征提取與處理,結合表現效果好的支持向量機算法,達到對晚點演化進行預測的目標。
本文借助機器學習的理論與方法,對京滬高鐵列車運行實績數據進行了樣本提取、特征標準化、過采樣、晚點標簽離散化等處理;結合晚點分類構建了混淆矩陣,并給出一些評價指標;建立了基于支持向量機的單車次列車晚點預測模型和區間全車次列車晚點預測模型并編程實現。通過構造評價指標評估了模型的有效性,結果表明,模型對高鐵列車的晚點范圍有理想的預測結果。
本文是機器學習理論遷移至高速鐵路列車晚點研究領域的一次嘗試,實例證明了機器學習方法具有一定的可行性。