AI文檔查重軟件開發(fā)

文章來(lái)源:成都小火軟件開發(fā)公司發(fā)布時(shí)間: 2025-06-30

大家好,我們是成都小火科技,今天是2025年6月30日,星期一。我們公司成立于2013年,有自己的全棧技術(shù)開發(fā)團(tuán)隊(duì)。目前我們開發(fā)的APP等軟件系統(tǒng)中,90%都有AI的功能。可以這樣說(shuō),AI可以讓傳統(tǒng)的軟件更進(jìn)一步,甲方可以選擇接入AI功能,或者重新開發(fā)AI相關(guān)的功能。  

去年我們接了個(gè)高校的需求,他們想要一套AI文檔查重系統(tǒng),解決畢業(yè)論文抄襲檢測(cè)的問(wèn)題。當(dāng)時(shí)市面上的查重工具只能查文字重復(fù),遇到圖表、公式就歇菜,而我們的目標(biāo)是做全類型文檔的查重。開發(fā)初期,我們用傳統(tǒng)的TF-IDF算法測(cè)試,發(fā)現(xiàn)對(duì)改寫后的文本識(shí)別率只有60%,比如“軟件開發(fā)”換成“軟件研發(fā)”就識(shí)別不出來(lái),這讓我們意識(shí)到必須上深度學(xué)習(xí)模型。  

核心技術(shù)架構(gòu)上,我們采用了“文本向量化+圖神經(jīng)網(wǎng)絡(luò)”的方案。先用BERT模型把文檔轉(zhuǎn)換成768維的語(yǔ)義向量,這樣即使句子結(jié)構(gòu)改變,意思相近的文本也能被識(shí)別。記得訓(xùn)練模型時(shí),我們爬取了10億字的學(xué)術(shù)文獻(xiàn)做語(yǔ)料庫(kù),用了8塊GPU跑了三天三夜,才把模型準(zhǔn)確率提升到92%。然后用圖神經(jīng)網(wǎng)絡(luò)建模文檔間的引用關(guān)系,比如A文檔引用B文檔的某個(gè)觀點(diǎn),即使文字表述不同,系統(tǒng)也能識(shí)別出關(guān)聯(lián)。 

文檔預(yù)處理模塊藏著很多細(xì)節(jié)。我們支持20多種格式解析,像PDF、Word、PPT都得轉(zhuǎn)換成純文本。遇到掃描版文檔,還得用OCR技術(shù)識(shí)別文字,起初用開源的Tesseract,在復(fù)雜排版下識(shí)別率只有75%,后來(lái)我們用PaddleOCR做了定制訓(xùn)練,識(shí)別率才提到90%。公式處理更麻煩,傳統(tǒng)方法把公式轉(zhuǎn)成Latex字符串比對(duì),但“y=kx+b”和“kx+b=y”會(huì)被當(dāng)成不同公式,后來(lái)我們用符號(hào)計(jì)算庫(kù)SymPy解析公式結(jié)構(gòu),準(zhǔn)確率提升到85%。  相似度計(jì)算模塊我們做了三級(jí)優(yōu)化。初級(jí)階段用余弦相似度比對(duì)語(yǔ)義向量,速度快但不夠精準(zhǔn);中級(jí)階段用編輯距離計(jì)算句子相似度,能識(shí)別改寫后的文本;高級(jí)階段引入強(qiáng)化學(xué)習(xí),讓模型根據(jù)歷史查重結(jié)果自動(dòng)調(diào)整權(quán)重。有次檢測(cè)一篇論文,系統(tǒng)發(fā)現(xiàn)作者把某段話拆分成三段混在文中,普通算法沒(méi)識(shí)別出來(lái),但我們的強(qiáng)化學(xué)習(xí)模型通過(guò)上下文關(guān)聯(lián),準(zhǔn)確標(biāo)記了重復(fù)區(qū)域。 

系統(tǒng)還加入了AI輔助降重功能。用戶上傳文檔后,系統(tǒng)不僅標(biāo)出重復(fù)處,還會(huì)給出改寫建議,比如“建議將‘軟件開發(fā)流程’替換為‘軟件研發(fā)生命周期’”。這個(gè)功能用了序列到序列(Seq2Seq)模型,我們用100萬(wàn)對(duì)“原文-改寫”數(shù)據(jù)訓(xùn)練,現(xiàn)在建議的可讀性達(dá)到82%。有個(gè)學(xué)生用了降重功能后,論文重復(fù)率從35%降到了8%,還特意給我們發(fā)來(lái)了感謝信。  在隱私保護(hù)方面,我們做了三層防護(hù)。文檔上傳時(shí)用AES-256加密,存儲(chǔ)時(shí)拆分成1024個(gè)碎片存在不同服務(wù)器,查重完成后72小時(shí)自動(dòng)刪除。記得給某律所做項(xiàng)目時(shí),他們要求本地部署,我們就開發(fā)了離線版查重系統(tǒng),所有計(jì)算都在本地服務(wù)器完成,斷網(wǎng)狀態(tài)下也能使用,那次項(xiàng)目讓我們積累了私有化部署的經(jīng)驗(yàn)。 

現(xiàn)在這個(gè)系統(tǒng)已經(jīng)迭代到3.0版本,新加入了跨語(yǔ)言查重功能。們用mBERT多語(yǔ)言模型,能檢測(cè)中文、英文、日文等10種語(yǔ)言的文檔重復(fù)。有次幫出版社檢測(cè)一本翻譯書,發(fā)現(xiàn)譯者大段照搬了另一本已出版書籍的內(nèi)容,跨語(yǔ)言查重功能準(zhǔn)確識(shí)別出了問(wèn)題。目前系統(tǒng)每天處理超過(guò)20萬(wàn)篇文檔,最高并發(fā)時(shí)能同時(shí)檢測(cè)5000篇,響應(yīng)時(shí)間控制在15秒以內(nèi)。  

開發(fā)過(guò)程中遇到過(guò)不少挑戰(zhàn)。有次處理古籍文檔,里面的繁體字和異體字讓模型犯了難,我們只好手動(dòng)構(gòu)建了3萬(wàn)字的古籍詞庫(kù),才解決了這個(gè)問(wèn)題。還有圖表查重,我們用計(jì)算機(jī)視覺(jué)技術(shù)提取圖表特征,比如折線圖的走勢(shì)、柱狀圖的比例,現(xiàn)在圖表重復(fù)識(shí)別率達(dá)到78%。這些細(xì)節(jié)優(yōu)化讓系統(tǒng)不僅能查文字,還能查公式、圖表、甚至代碼片段,真正實(shí)現(xiàn)了全類型文檔的智能查重。


文章來(lái)源網(wǎng)址:http://www.zizhu8.cn/archives/xitongkaifa01/1953,轉(zhuǎn)載請(qǐng)注明出處!

推薦文章

實(shí)驗(yàn)室大數(shù)據(jù)查詢APP定制開發(fā)

2025-11-25 17:30:29

工業(yè)調(diào)度AI軟件定制開發(fā)

2025-11-25 17:30:24

智慧物流AI軟件系統(tǒng)開發(fā)

2025-11-25 17:30:18

中學(xué)AI教務(wù)系統(tǒng)平臺(tái)定制開發(fā)

2025-11-25 17:30:14

區(qū)塊鏈數(shù)字文創(chuàng)景區(qū)生態(tài)平臺(tái)定制開發(fā)

2025-11-24 17:58:51

研究院科技感網(wǎng)站定制設(shè)計(jì)開發(fā)

2025-11-24 17:58:46

中文教育AI學(xué)習(xí)系統(tǒng)定制開發(fā)

2025-11-24 17:58:42

AI制造業(yè)巡檢系統(tǒng)定制開發(fā)

2025-11-24 17:58:38

Core competence

高質(zhì)量軟件開發(fā)公司-成都小火科技

多一套方案,多一份選擇

聯(lián)系小火科技項(xiàng)目經(jīng)理,及時(shí)獲取專屬《項(xiàng)目方案》及開發(fā)報(bào)價(jià)

咨詢相關(guān)問(wèn)題或預(yù)約面談,可以通過(guò)以下方式與我們聯(lián)系

業(yè)務(wù)熱線 19113551853