引用格式:嚴彥勝,李京. 基于深度強化學習的以太坊 MEV 交易防護與交易排序優(yōu)化[J].網(wǎng)絡安全與數(shù)據(jù)治理,2025,44(7):20-26.
引言
隨著區(qū)塊鏈技術的廣泛應用,尤其是以太坊在去中心化金融(DeFi)領域的快速發(fā)展,最大可提取價值(Maximal Extractable Value,MEV)交易問題逐漸成為影響網(wǎng)絡公平性、安全性和效率的重要挑戰(zhàn)[1]。MEV 由礦工或排序者通過操控交易順序獲得額外利潤,表現(xiàn)形式包括前置攻擊(FrontRunning)、三明治攻擊(Sandwich Attack)等[2]。這些交易模式不僅對普通用戶造成經(jīng)濟損失,還推高整體交易成本,加劇網(wǎng)絡擁堵,破壞區(qū)塊鏈生態(tài)的穩(wěn)定性與公正性[3]。
MEV的產(chǎn)生主要源于區(qū)塊鏈交易順序的可操控性、交易信息的公開性、Gas競價機制以及DeFi交易的復雜性?,F(xiàn)有的交易排序方法主要包括先來先服務(FIFO)排序和Gas競價排序。FIFO排序雖然具有較高的公平性,但缺乏Gas費用優(yōu)化,無法有效防范MEV交易[4]。Gas競價排序根據(jù)交易支付的Gas費用決定執(zhí)行順序,導致Gas競價競爭加劇,使得MEV交易通過支付高額Gas費用獲得優(yōu)先執(zhí)行權,從而進一步破壞交易公平性[5]。
與現(xiàn)有采用啟發(fā)式排序策略或基于靜態(tài)規(guī)則的排序機制相比,本文方法引入強化學習框架,具有更強的自適應能力,能夠在不同交易負載和攻擊場景下動態(tài)調(diào)整排序策略。同時,相較于現(xiàn)有基于強化學習的研究[6-8]主要聚焦于合約交互或交易分類問題,本文首次將深度Q網(wǎng)絡(Deep QNetwork,DQN)應用于交易排序優(yōu)化,并構建專門的狀態(tài)-動作空間及獎勵函數(shù),直接面向 MEV 抑制目標進行學習。
本文的主要貢獻如下:
(1)提出基于 DQN 的交易排序優(yōu)化方法,動態(tài)調(diào)整交易執(zhí)行順序,以降低 MEV 交易的影響,提高交易公平性。
(2)優(yōu)化 Gas 費用,通過強化學習減少 Gas 競價排序帶來的交易成本膨脹問題。
(3)構建完整的實驗框架,在Geth (Go-Ethereum)本地私有鏈環(huán)境下復現(xiàn)真實交易處理流程,并結(jié)合 Flashbots MEV-Explore 數(shù)據(jù)集進行實驗驗證。
實驗結(jié)果表明,所提出的 DQN 排序策略相比傳統(tǒng)方法將 MEV 提取率降低至 13% 以下,平均 Gas 費用較基準策略降低約 33.1%,并顯著提升低 Gas 交易的執(zhí)行公平性,公平性指數(shù)達到 0.78,遠高于傳統(tǒng)策略。
本文詳細內(nèi)容請下載:
http://m.theprogrammingfactory.com/resource/share/2000006610
作者信息:
嚴彥勝,李京
(中國科學技術大學計算機科學與技術學院,安徽合肥230026)