多模態(tài)會議與AI協(xié)作工具定制開發(fā)

文章來源:成都小火軟件開發(fā)公司發(fā)布時間: 2025-11-13

大家好,我是成都小火科技的人員,今天是2025年11月13日,星期四。前些周參加一次線上評審會,十二個專家開了四個小時,紀(jì)要寫了三千字,哪曉得第二天發(fā)現(xiàn)最關(guān)鍵的決策點(diǎn)記錯了,又得重新把會組織起來。當(dāng)時我便思量,這會議效率的狀況,已經(jīng)不是人的狀況,而是工具的狀況。遠(yuǎn)程辦公常態(tài)化之后,會議軟件已經(jīng)成為剛需,但大多還僅僅處于音視頻通話的層面,真正的協(xié)作效率根本沒有得到提升。所以我打算自行開發(fā)一套,是一套帶有AI頭腦、能夠看懂PPT、能夠聽明白語氣、能夠自動安排任務(wù)的多模態(tài)會議系統(tǒng)。

做咨詢的客戶的痛點(diǎn)是會議信息流失嚴(yán)重。一個項目啟動會,討論的內(nèi)容分散于聊天記錄、共享文檔、口頭承諾之中,執(zhí)行的時候就各持己見。當(dāng)他找到我的時候,提出了一個很具體的需求:能否讓人工智能自動識別會議里的決策項、責(zé)任人、截止時間等,之后會后直接生成工單派送到客戶關(guān)系管理系統(tǒng)當(dāng)中去。我產(chǎn)品經(jīng)理聽罷,興奮地搓手,這兒得用Whisper來進(jìn)行語音識別,兒要用視覺模型來做PPT內(nèi)容解析,再接用LLM來做語義理解以及任務(wù)抽取,多模態(tài)融合是真正的難點(diǎn)。技術(shù)主管確定好了方案,前端使用React,后端使用Java,AI服務(wù)單獨(dú)用Python來做微服務(wù),音視頻使用WebRTC,PPT解析使用OCR加上LayoutLM。

在四個半月時長的開發(fā)周期方面,總會有人詢問開發(fā)周期需要花費(fèi)多長時間?實際上得看復(fù)雜程度的會議場景了??蛻暨€有支持同聲傳譯且中英日韓四語的要求,需要接入專門的翻譯API,同時還得去處理存在的延遲問題。到了第三個月的時候,中間需求存在改動的情況還確實不少,客戶提出要在會議當(dāng)中添加實時投票功能,我便去進(jìn)行評估,這次改動涉及前端界面以及后端數(shù)據(jù)存儲方面,屬于中等程度的改動,于是就壓縮了一下測試時間,把它添加進(jìn)去了。在我公司所做的許多項目里,像賽事報名系統(tǒng)之類,也存在實時互動情況,不過會議系統(tǒng)的實時性要求相對更高些,如果延遲超過500毫秒,體驗就會呈斷崖式下跌。交付質(zhì)量如何?上線之后客戶稱會議決策執(zhí)行率從以往的60%攀升到87%,因為每一個決策都有蹤跡可尋。

我投入了十二位技術(shù)人員,其中四個是從事AI算法的,三個是Java后端的,兩個是前端的,一個是UI的,兩個是測試的。研發(fā)人員的占比超過了80%,其中30%以上來自互聯(lián)網(wǎng)大廠,有來自騰訊會議團(tuán)隊的,有來自字節(jié)跳動飛書團(tuán)隊的,帶原廠的經(jīng)驗以及坑的。成都小火科技公司專門從事AI軟件、政企軟件、智慧管理類型的軟件、智慧實施類型的軟件、海外軟件、APP、小程序、公眾號、企業(yè)官網(wǎng)以及其他行業(yè)軟件的定制開發(fā)。我官網(wǎng)的網(wǎng)址是www.zizhu8.cn,ICP備案號是蜀ICP備14021890號-1,網(wǎng)安備案號是川公網(wǎng)安備51010802031911號,是正規(guī)的公司,資質(zhì)是齊全的。APP是否能夠同時適配iOS以及安卓?這次做的是網(wǎng)頁版,因為客戶主要在PC端開會,不過我也做了移動端小程序,方便在外參會的人員接入。

測試階段里頗為尷尬的狀況被我發(fā)現(xiàn),當(dāng)會議室光線不佳的時候,人臉識別常常失敗導(dǎo)致發(fā)言人標(biāo)簽出現(xiàn)錯亂。最后我添加了一個聲紋識別來做輔助,雙重校驗才得以解決。關(guān)于小程序是否存在手機(jī)兼容性問題?是會存在的特別是很多內(nèi)存小的老款iPhone,在進(jìn)行視頻會議的時候就容易出現(xiàn)閃退的情況。我已經(jīng)進(jìn)行了內(nèi)存優(yōu)化,視頻分辨率也被動態(tài)調(diào)整了,并且添加了崩潰日志自動上報功能。上線之后如果出現(xiàn)bug,我會負(fù)責(zé)修復(fù)?肯定是負(fù)責(zé)的,合同里有寫明,緊急bug會在四小時內(nèi)響應(yīng)。維護(hù)費(fèi)是如何收取的?首年是免費(fèi)的,之后每年按照合同額的15%進(jìn)行收取,其中包含API升級以及服務(wù)器擴(kuò)容。后期要是想要添加功能是否需要額外花錢?是需要的舉個例子來說,客戶要是想要添加會議氣氛分析,看看大家是贊同還是反對,需要添加情感計算模塊,屬于新增的需求。

UI能夠設(shè)計多少個版本?我這邊做了有三個版本,客戶挑中了最為專業(yè)的一版,帶有深色背景,凸顯視頻窗口。至于使用云服務(wù)器還是線下自主服務(wù)器?采用的是云服務(wù)器,有阿里云跟AWS雙活,因為客戶存在海外團(tuán)隊,得要全球來接入。代碼的版權(quán)屬于誰?屬于客戶不過對于有AI模型基座的我的技術(shù)積累而言,這一塊是有單獨(dú)的知識產(chǎn)權(quán)約定。開發(fā)完畢之后會對客戶開展使用培訓(xùn)?是會的我制作了五段時長不超過三分鐘的視頻教程,并且還配備了操作手冊,因為會議軟件需要快速上手,沒有人愿意去看長篇的文檔。

本公司到底有多少個技術(shù)人員?總計是五十三個人。除了行政財務(wù)一塊之外,剩下的全都是與技術(shù)相關(guān)的人員。有人就問是否有JAVA開發(fā)語言?有,有十四個JAVA后端的人員,這是本公司的主力軍。有人疑惑為何不同公司的報價差距許多?由于會議系統(tǒng)關(guān)聯(lián)音視頻、AI、協(xié)作這三方面,每一方面都是難攻克之地,小公司只能夠開展表層的業(yè)務(wù),而我能夠進(jìn)行全鏈路的操作,成本構(gòu)造是不一樣的。我所開展過的項目情況,比如有AI智慧文旅小程序這類的,也存在多模態(tài)方面的需求,不過會議系統(tǒng)的實時交互要求則更為高些。我擁有ISO900認(rèn)證(證書編號:29325Q410631R0S),質(zhì)量管理流程相當(dāng)嚴(yán)格。

復(fù)盤該項目之中,最大的障礙是個AI幻覺。有一次會議商討預(yù)算的時候,PPT上寫“控制在10%以內(nèi)”,AI在抽取任務(wù)的時候,被理解成了“增加10%”,差一點(diǎn)就派錯工單。此刻在LLM后處理中已添加規(guī)則校驗,經(jīng)過數(shù)字、人名、時間的三重核對之后,幻覺才算是被穩(wěn)穩(wěn)地壓制住了。經(jīng)驗需要補(bǔ)充一些,多模態(tài)融合并非單純堆砌模型,需要開展特征對齊以及時間同步的相關(guān)事項,我的音視頻和PPT解析的時間戳對齊,就花費(fèi)了足足兩周的時間。重提醒很多想要去做多模態(tài)會議工具的企業(yè),可不要貪大求全,先把核心場景做透徹,比如說先確保決策抽取準(zhǔn)確率能達(dá)到95%,之后再去做屬于錦上添花的氣氛分析這類功能。說到底會議工具的價值在于讓信息不流失且決策可追蹤,即便花哨功能有很多,也比不上一次準(zhǔn)確的會議紀(jì)要。我做這件事是期望能幫企業(yè)把開會的成本切實轉(zhuǎn)化為執(zhí)行力的提升,而不是增添數(shù)字的負(fù)擔(dān)。


文章來源網(wǎng)址:http://www.zizhu8.cn/archives/xitongkaifa01/2408,轉(zhuǎn)載請注明出處!

推薦文章

實驗室大數(shù)據(jù)查詢APP定制開發(fā)

2025-11-25 17:30:29

工業(yè)調(diào)度AI軟件定制開發(fā)

2025-11-25 17:30:24

智慧物流AI軟件系統(tǒng)開發(fā)

2025-11-25 17:30:18

中學(xué)AI教務(wù)系統(tǒng)平臺定制開發(fā)

2025-11-25 17:30:14

區(qū)塊鏈數(shù)字文創(chuàng)景區(qū)生態(tài)平臺定制開發(fā)

2025-11-24 17:58:51

研究院科技感網(wǎng)站定制設(shè)計開發(fā)

2025-11-24 17:58:46

中文教育AI學(xué)習(xí)系統(tǒng)定制開發(fā)

2025-11-24 17:58:42

AI制造業(yè)巡檢系統(tǒng)定制開發(fā)

2025-11-24 17:58:38

Core competence

高質(zhì)量軟件開發(fā)公司-成都小火科技

多一套方案,多一份選擇

聯(lián)系小火科技項目經(jīng)理,及時獲取專屬《項目方案》及開發(fā)報價

咨詢相關(guān)問題或預(yù)約面談,可以通過以下方式與我們聯(lián)系

業(yè)務(wù)熱線 19113551853