近日,廣東省廣州市檔案館與廣州大學人工智能學院聯(lián)合研發(fā)的"數(shù)字檔案智能篩密系統(tǒng)"正式投入使用,經(jīng)系統(tǒng)性嚴格測試,該系統(tǒng)對各類密件的召回率達99%,密件與非密件識別準確率達97%,標志著我國檔案智能管理技術(shù)取得重大突破?。
該系統(tǒng)的研發(fā)面臨兩大技術(shù)挑戰(zhàn):涉密數(shù)據(jù)"不可用"的安全紅線和檔案數(shù)字化成果識別"高復雜度"。“高仿真度的樣本合成”的創(chuàng)新性提出和實踐,將海量的非密檔案的數(shù)字化成果作為“背景庫”,同時通過技術(shù)的手段又生成了數(shù)千種不同形態(tài)的“密”字標識作為“前景信息”,將兩者都有效的融合在一起,生成數(shù)十萬張既不含任何真實的涉密信息又具備了密件的關(guān)鍵視覺特征的訓練樣本等。
針對檔案數(shù)字化副本識別高復雜度的技術(shù)難點,項目團隊研發(fā)出一款數(shù)字檔案篩密垂類多模態(tài)大模型。該模型不僅能精準捕捉標識的局部細節(jié)特征,更能通過其獨特的"自注意力機制"理解圖像的上下文及空間布局信息。為使其適應小樣本、高精度的專業(yè)任務(wù)需求,團隊還實施了"漸進式解凍""分層學習率"等一系列精細化訓練優(yōu)化策略,顯著提升了模型的識別精度?。
在實現(xiàn)算法模型自主創(chuàng)新的同時,廣州市檔案館同步完成了全流程、全棧式國產(chǎn)化部署。智能篩密垂類大模型部署于局域網(wǎng)的一臺高性能AI算力服務(wù)器中,配置了4顆高性能華為鯤鵬48核CPU、1TB內(nèi)存及8張32GB顯存的華為昇騰910B計算卡?。
這一硬件平臺為模型的穩(wěn)定運行提供了強大的國產(chǎn)算力支撐,并實現(xiàn)了對PyTorch等主流深度學習框架的良好兼容。系統(tǒng)每小時可處理約2.5萬畫幅,大幅降低了人力成本與經(jīng)驗誤差,徹底改變了傳統(tǒng)檔案篩密"慢、繁、難"的工作現(xiàn)狀?。
"自主算法模型+國產(chǎn)硬件平臺+物理隔離網(wǎng)絡(luò)"的綜合解決方案是從底層芯片到網(wǎng)絡(luò)環(huán)境再到上層應用的全鏈路自主可控實踐,實現(xiàn)了信息化建設(shè)與智能化轉(zhuǎn)型的新突破。這一模式不僅為檔案行業(yè)樹立了標桿,也為其他涉密領(lǐng)域的信息化建設(shè)提供了可借鑒的經(jīng)驗?。
檔案行業(yè)專家普遍認為,智能篩密技術(shù)是檔案管理領(lǐng)域的重要創(chuàng)新,能夠顯著提升檔案安全保密工作的效率和準確性。該技術(shù)的問世同時,不僅能有效地破解了長期以來對檔案的開放審核所存在的“技術(shù)壁壘”和“標準壁壘”,也跨越式地對檔案的開放審核質(zhì)效又上了一大等臺階。
隨著人工智能技術(shù)的進一步發(fā)展,智能篩密技術(shù)有望在更多檔案館得到推廣應用。根據(jù)《"十四五"全國檔案事業(yè)發(fā)展規(guī)劃》,我國將全面加快檔案數(shù)字化轉(zhuǎn)型和智能升級,加強大數(shù)據(jù)、人工智能等新一代信息技術(shù)在數(shù)字檔案館(室)建設(shè)中的應用?。
隨著技術(shù)的不斷突破,檔案智能管理將從目前的局部、淺的智能向更深的、更廣的智能方向發(fā)展。一方面,通過機器學習、知識圖譜、自然語言處理等人工智能技術(shù)的創(chuàng)新應用,能夠顯著提升檔案管理的自動化、智能化水平;另一方面,智能技術(shù)還能深入挖掘檔案數(shù)據(jù)的潛在價值,促進知識資產(chǎn)化管理,為決策注入數(shù)據(jù)支撐和知識服務(wù)?。
廣東廣州數(shù)字檔案智能篩密技術(shù)的突破,不僅為本地檔案管理工作提供了強大技術(shù)支持,也為全國檔案行業(yè)的數(shù)字化轉(zhuǎn)型樹立了標桿,標志著我國檔案事業(yè)正加速向智能化、現(xiàn)代化邁進。