全球速看:合合信息智能文檔處理系統獲權威評測認可

        光明網 2023-06-20 15:48:51

        數字經濟快速發展的背后,全球數據總量呈現出爆發式增長趨勢。智能文檔處理(IDP)技術能夠高效地從多格式文檔中捕捉、提取和處理數據,幫助機構和企業大幅提升文檔處理效率,節約時間和人力成本。近期,合合信息智能文字識別產品通過中國信息通信研究院(以下簡稱“中國信通院”)“可信AI—智能文檔處理系統”評估工作,并獲得“5級”評定。據悉,“5級”為該模塊最高評定等級。

        人工智能技術的應用場景正在不斷拓展,其發展也面臨著產品能力參差不齊、缺乏行業基準和標桿、安全可信要求落實不明確等問題。中國信通院于2018年起逐步構建和完善“可信AI”評測體系,助力人工智能技術的發展和產業的健康成長,“智能文檔處理”是近兩年來新增的評測項目之一。


        (資料圖)

        中國信通院智能文檔處理系統評測體系介紹(圖源:中國信通院)

        國際數據公司(IDC)最新發布的預測數據顯示,中國數據量規模將從2022年的23.88ZB增長至2027年的76.6ZB,年均增長速度(CAGR)達到26.3%。其中,企業數據量占據70%,目前僅有24%的數據被用于分析或AI決策。由此可見,企業在經營中沉淀下來的數據,有大部分價值尚待釋放。

        計算機信息化系統中的數據分為結構化數據和非結構化數據,人們日常生活、工作中所接觸到的各類辦公文檔、文本、圖片、報表都屬于非結構化數據。由于格式復雜、標準多樣,非結構化數據處理起來既困難又耗時,智能文檔處理技術可以把關鍵信息從半結構化/非結構化數據中提取出來,進一步實現業務流程的端到端自動化。IDC認為,智能文檔處理技術是提升部分行業、業務、流程的核心生產要素,隨著與應用和流程自動化的深度整合,潛在的應用場景廣泛,普及空間較大。

        目前,智能文檔處理技術已被廣泛應用于文檔數字化管理、自動化流程、圖文提取等業務場景,并加速滲透金融、政務、醫療、海關等垂直領域。中國信通院持續關注智能文檔處理技術及應用的發展情況,依據《自然語言處理技術和產品評估方法 第8部分:智能文檔處理系統》,全方位評估企業智能文檔處理的技術先進度。

        評估結果顯示,合合信息智能文檔處理產品在通用能力及AI核心能力方面均表現優異:

        通用能力方面,合合信息產品在信息抽取、表格文字識別、版面分析等方面均獲得5分評分。表格文字識別、版面分析是文檔處理的難點,合合信息表格文字識別技術支持識別圖片/PDF格式文檔中的多類型表格內容。在財報相關表格識別測試中,合合信息有線表識別單元格結構準確率高于98%;無線表識別在保證表格區域內容的完整性的同時,檢測準確率較傳統方法顯著提升。

        合合信息“表格文字識別”處理效果展示

        合合信息版面分析技術通過解決版面分割、區域間的邏輯關系處理等方面的難題,可將文檔圖像切分成不同類型內容(文本、圖形、公式、表格等)的區域,并分析區域之間的關系,讓機器更精準地確定文檔中的文字位置、字體、大小和排版方式,從各類版式復雜的圖片文檔中精準獲取信息。

        AI核心能力方面,合合信息產品在NLP領域的文本分類、知識圖譜領域的實體識別、關系抽取及OCR領域的字符識別、文本行識別均獲得5分評分,并支持文本生成、事件抽取等高階處理能力,其中準確率、召回率、F1值等指標評分總體較高。

        資料顯示,合合信息創立于2006年,是一家人工智能及大數據科技企業。合合信息智能文檔處理產品是一款集圖像處理、文檔質量判斷、文檔識別、版面分析、文檔結構化信息抽取、存儲、檢索、管理等技術于一體的智能文檔解決方案產品,旨在幫助個人和企業實現文檔信息化管理。

        此外,本月,中國信通院攜手合合信息啟動了《文檔圖像篡改檢測標準》制定工作,中國圖象圖形學學會、中國科學技術大學等知名學術機構參與聯合編制。該檢測標準將基于產業現狀,圍繞“細粒度”視覺差異偽造圖像鑒別、生成式圖像判別等行業焦點議題,凝聚行業共識,為中國“可信AI”在機器視覺、圖像處理領域的體系建設提供有力支持。(柯巖)

        關鍵詞:

        免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

        最新推薦