如果你有在業務部門或財會部門工作過的經驗,你肯定知道每天要處理及key in大量來自客戶、廠商的訂單及發票是既繁瑣無聊又累人的事…😩

又或者出差、買公務行政用品的報帳作業,你要核對著交通票券、餐廳/商家收據,一張一張、一筆一筆的key in進系統,這又是額外麻煩的工作…😿

這些痛點歸因於無法與外部系統整合(大量分散、無規則),而在部份經人工規則化後的任務已經可以透過RPA(Robotic Process Automation機器人流程自動化)完成自動化作業,如下圖透過人工標記(黃色定錨/紅色取值)出資料欄位,再經由OCR模型辨識由RPA整理成規則化的資料表單,即可進行後續的自動化資料key in作業,此作法也確實能提升部份人工作業效率。

第一個方法是在收到單據影像檔後,透過Foundation Model對影響進行辨識分析及轉成正規劃資料,後續再透過RPA到系統進行自動化的key in作業。


第二個方法則是經由Foundation Model進行欄位標記(像上面那張Invoice做黃框/紅框標記的工作),之後透過OCR engine進行辨識(可使用RPA內建或第三方辨識引擎),再透過RPA做資料正規化並進行系統key in自動化作業。

這個方法理論上是最經濟實惠且安全的解決方案,然而目前測試使用市面上兩大OCR engine Abbyy及Tesseract在中文辨識上表現皆不佳,可能要透過其他第三方OCR引擎才能有比較好的辨識結果,另外要使用模型做到關鍵字詞(欄位)的標記則需要研究prompt如何下才能有效完成tag作業。

*這邊使用的是Multi-Modal Foundation Model而不是LLM Model主要是我們需要使用多模態模型幫我們解讀圖片中的內容,轉換成文字並進行摘要及分類。

🧠自動化模型比較GPT-4o vs Gemini1.5 flash vs Claude 3.5 Sonnet

在說明完方法後,接下來就是重頭戲Foundation Model的比較啦~



Gemini 1.5 Flash:圖片文字辨識正確,推論合理且內容較豐富

Claude 3.5 Sonnet:圖片文字辨識正確,推理合理且內容較豐富,最後還有判讀出這是一份模板,推理表現較強

Gemini 1.5 Flash:車票文字辨識正確,推論及內容較豐富

Claude 3.5 Sonnet:車票文字辨識正確,推論及內容較豐富

Gemini 1.5 Flash:正確辨識收據文字內容,推論合理,內容較豐富

Claude 3.5 Sonnet:正確辨識收據文字內容,推論合理,也是唯一有辨識出統一編號的模型,還有辨識出哪裡是手寫文字

Gemini 1.5 Flash:辨識文字基本上都正確,但無法正確辨識是否有簽到(無法判讀圖片欄位是否有文字)

Claude 3.5 Sonnet:辨識文字基本上都正確,且能判讀是否有簽到(可判讀圖片欄位是否有文字)

  • 1.辨識速度:Claude 3.5 Sonnet > Gemini 1.5 Flash > GPT-4o
  • 2.辨識精準度:Claude 3.5 Sonnet  Gemini 1.5 Flash > GPT-4o
  • 3.推理能力:Claude 3.5 Sonnet > Gemini 1.5 Flash > GPT-4o
  • 4.幻覺:GPT-4o

🧠綜合上述測試比較,Claude 3.5 Sonnet模型在各方面表現均較佳,故推薦做為單據辨識及自動化之模型


專欄作者簡介:Austin Huang
現任台灣IBM Data&AI售前顧問,專司企業流程自動化解決方案。曾任職於KPMG擔任數位轉型顧問,擅長RPA開發、資料視覺化及流程自動化工具導入,並具有製造、金融領域幕僚及業務經驗。


