本文授權轉載自 Austin Huang 未經同意請勿轉載、摘編
如果你有在業務部門或財會部門工作過的經驗,你肯定知道每天要處理及key in大量來自客戶、廠商的訂單及發票是既繁瑣無聊又累人的事…😩
又或者出差、買公務行政用品的報帳作業,你要核對著交通票券、餐廳/商家收據,一張一張、一筆一筆的key in進系統,這又是額外麻煩的工作…😿
這些痛點歸因於無法與外部系統整合(大量分散、無規則),而在部份經人工規則化後的任務已經可以透過RPA(Robotic Process Automation機器人流程自動化)完成自動化作業,如下圖透過人工標記(黃色定錨/紅色取值)出資料欄位,再經由OCR模型辨識由RPA整理成規則化的資料表單,即可進行後續的自動化資料key in作業,此作法也確實能提升部份人工作業效率。
然而如果遇到大量不同格式的單據,這樣透過人工標記的方式往往因前置作業太過耗時且例外狀況多,導致無法有效實踐自動化作業…
直到生成式AI模型出現,我們發現過去經由人工處理沒有規則的單據作業,開始有辦法透過AI模型進行推論及辨識來完成!🤩
以下會開始說明具體可行的方法及不同生成式AI模型在辨識能力上的比較。
————————————我是分隔線 以下是重點———————————–
💡方法#1
第一個方法是在收到單據影像檔後,透過Foundation Model對影響進行辨識分析及轉成正規劃資料,後續再透過RPA到系統進行自動化的key in作業。
此方法的優點是中文辨識較佳且已驗證可行;缺點則是每次作業都需要透過API調用第三方AI模型進行辨識,成本會隨著單據數量而不斷增加,且資料必須餵入模型才能辨識,對於機敏資料可能存在外洩疑慮。
💡方法#2
第二個方法則是經由Foundation Model進行欄位標記(像上面那張Invoice做黃框/紅框標記的工作),之後透過OCR engine進行辨識(可使用RPA內建或第三方辨識引擎),再透過RPA做資料正規化並進行系統key in自動化作業。
這個方法理論上是最經濟實惠且安全的解決方案,然而目前測試使用市面上兩大OCR engine Abbyy及Tesseract在中文辨識上表現皆不佳,可能要透過其他第三方OCR引擎才能有比較好的辨識結果,另外要使用模型做到關鍵字詞(欄位)的標記則需要研究prompt如何下才能有效完成tag作業。
*這邊使用的是Multi-Modal Foundation Model而不是LLM Model主要是我們需要使用多模態模型幫我們解讀圖片中的內容,轉換成文字並進行摘要及分類。
🧠自動化模型比較GPT-4o vs Gemini1.5 flash vs Claude 3.5 Sonnet
在說明完方法後,接下來就是重頭戲Foundation Model的比較啦~
這邊我們取用幾個較有名的模型進行圖像的解讀測試來驗證作為單據自動化分析模型的可行性:
🔍測試#1-Invoice
GPT-4o:圖片文字辨識基本正確,最後的推論不太正確
Gemini 1.5 Flash:圖片文字辨識正確,推論合理且內容較豐富
Claude 3.5 Sonnet:圖片文字辨識正確,推理合理且內容較豐富,最後還有判讀出這是一份模板,推理表現較強
🔍測試#2-高鐵票
GPT-4o:車票文字辨識正確
Gemini 1.5 Flash:車票文字辨識正確,推論及內容較豐富
Claude 3.5 Sonnet:車票文字辨識正確,推論及內容較豐富
🔍測試#3-星巴克收據
GPT-4o:正確辨識收據文字,但內容較少且沒有其他推論結果
Gemini 1.5 Flash:正確辨識收據文字內容,推論合理,內容較豐富
Claude 3.5 Sonnet:正確辨識收據文字內容,推論合理,也是唯一有辨識出統一編號的模型,還有辨識出哪裡是手寫文字
🔍測試#4-簽到表
GPT-4o:產生之excel檔內容完全錯誤,有嚴重幻覺問題
Gemini 1.5 Flash:辨識文字基本上都正確,但無法正確辨識是否有簽到(無法判讀圖片欄位是否有文字)
Claude 3.5 Sonnet:辨識文字基本上都正確,且能判讀是否有簽到(可判讀圖片欄位是否有文字)
📋總結
- 1.辨識速度:Claude 3.5 Sonnet > Gemini 1.5 Flash > GPT-4o
- 2.辨識精準度:Claude 3.5 Sonnet ≥ Gemini 1.5 Flash > GPT-4o
- 3.推理能力:Claude 3.5 Sonnet > Gemini 1.5 Flash > GPT-4o
- 4.幻覺:GPT-4o
🧠綜合上述測試比較,Claude 3.5 Sonnet模型在各方面表現均較佳,故推薦做為單據辨識及自動化之模型
*模型表現優劣與prompt也有相關聯,本次測試僅用概略prompt描述作為驗證,如讀者有相關模型比較經驗也歡迎分享討論.
專欄作者簡介:Austin Huang
現任台灣IBM Data&AI售前顧問,專司企業流程自動化解決方案。曾任職於KPMG擔任數位轉型顧問,擅長RPA開發、資料視覺化及流程自動化工具導入,並具有製造、金融領域幕僚及業務經驗。
先行智庫為台灣管理顧問公司,服務內容包含整合行銷官網服務、企業內訓、顧問諮詢以及數據解決方案,了解更多企業服務內容:https://kscthinktank.com.tw/digital-marketing/