產品廠商新聞方案技術培訓下載招聘品牌展會視頻媒體國防軍民融合

  •  
     

    達觀數據:如何用人工智能技術重塑企業級搜索服務?

    為什么要做企業級搜索?

    在搜索引擎面世之初,大眾常見的是谷歌、百度等面向個人用戶的搜索服務,可以查找互聯網上資訊、軟件、商品等內容,滿足人們探索和獲取互聯網信息的需求。企業級的搜索是在辦公場景下,對內部的文檔材料和系統數據信息進行管理和檢索,目的是為提升企業內的信息獲取效率。

    搜索引擎的技術發展了十多年,很多企業仍然采用的是關鍵詞查詢和簡單匹配的方案,搜索不準、功能單一、效果堪憂。在企業發展過程中,系統與數據在不斷增加、業務覆蓋范圍在持續擴大,信息傳遞效率在逐步下降,企業級信息檢索的現狀是:數據散落在割裂的各個系統之中,內容量的增加讓搜索效率降低,不支持圖片表格音視頻內容的檢索,用戶直接查詢數據庫有一定門檻,同一個概念的業務實體要查詢多次。在技術水平、應用效率和用戶體驗上,傳統的企業級搜索都大大落后于互聯網搜索:

    1、搜索是軟件系統的標配功能,大部分系統都有搜索入口,因數據存儲和檢索能力各有差異,用戶在查詢資料時經常來回切換,非常不方便。

    2、近幾年自然語言處理、深度學習等技術發展迅速,相比過去,文本處理和語義搜索效果有明顯改觀,對多源異構信息的查詢效率有了極大提升。

    3、企業級搜索的背后是統一數據和知識管理,是開展桌面辦公智能化、流程協作自動化等應用的基礎。(達觀數據)

    企業級客戶需要的搜索是什么?

    構建企業產品需要理解客戶的業務目標、建立相應的解決方案以盡可能滿足其業務需求。企業級查詢的難點集中在三個方面:數據與權限的集成、查詢效率的提升、搜索背后信息組織方式的優化。達觀數據作為專注于文本智能處理的人工智能企業,專注于利用先進的自然語言理解、RPA機器人流程自動化、OCR光學字符識別、知識圖譜等技術,為大型企業和政府機構提供文本自動抽取、審核、糾錯、搜索、推薦、寫作等智能軟件系統。在客戶服務的過程中我們發現,要做好企業級搜索要滿足以下四方面的需求:

    好:效果優秀

    搜索要解決信息查詢的問題,搜索引擎的效果好壞直接由查詢結果的全面性和準確率體現。

    全面性是指在輸入信息有限時,理解查詢內容、找到盡可能多的隱性相關的內容,把盡可能全面的相關結果給到用戶,至少涉及到意圖理解、語義理解、向量搜索、知識工程構建等方面的任務;準確率即召回多條結果的情況下,確保用戶需要的結果盡可能靠前/第一位顯示,這依賴于行業語料的挖掘、多層級的匹配與排序機制、結合業務特征的算法策略以及可持續優化的系統架構。

    對于企業搜索項目而言、開源搜索引擎的作用更多是一個基礎框架,因為當面對特定領域的文本挖掘、多輪召回排序、debug排序優化等具體任務時,都需要相應的算法技術與業務適配性的投入,才能保證搜索的效果足夠優秀與可靠。在特定的行業領域,即使技術實力強如Google,相比垂直的企業搜索公司效果有時也會略遜一籌。

    全:能力全面

    企業服務系統在一定程度上是在特定場景的解決方案,而不僅僅是一個工具或標準化產品。員工搜索時常常碰到的問題有:圖表內容無法識別、業務詞庫查詢無結果、搜索結果信息大面積冗余、自然語言查詢不支持、目標內容之間的關聯性低等,管理維護人員面對的問題有關鍵數據統計缺失、搜索效果無法量化評估、系統集成無法標準擴展等等。大部分是技術模塊的缺失,解決方案覆蓋不足導致的。

    企業信息查詢的訴求是長期而非固定的,要考慮信息查詢的內容效果,在文本挖掘功能、知識卡片維護、數據的處理分析、算法效果評估、數據的集成擴展等諸多的模塊上,要具備相應的功能可用和架構設計的遠見,明顯不同于C端產品的“簡潔之美”,企業應用是要兼顧當前整體使用效率和持續可維護能力。BAT等巨頭的搜索系統平臺,有上千人的開發和運營團隊在持續迭代,要達到同等水平的搜索體驗,對企業的各方面技術要求是一項不小的挑戰。

    通:資源統管

    企業數據資源的統一管理是實現企業統一搜索的重要一步。需要納入管理的系統數據,往往是多源異構的,其中包括有本地文件、數據庫、資料管理系統、業務/應用系統等等,每一類系統都要解決資源獲取、權限對接與更新同步三大問題。這意味著對常見的系統要有比較成熟的解決方案,同時面對差異化的系統有快速接入的開發能力。

    一些數據驅動和IT管理意識領先的公司,已經在實現數據中心的集中管理,對企業內的數據資源和訪問權限做了統一管理。每個系統要納入搜索的數據范圍和數據類型不同,索引結構不同,統一查詢入口需實現基于查詢意圖理解的聚合排序。在融合結構化信息與非結構化信息的過程中,對同一實體知識在不同系統中的關系設定,則需要運用到知識圖譜相關技術,從業務層面進行知識建模,對實體知識及其關聯屬性的管理,從而實現業務視角上能夠發現、管理和分析系統中信息關系的能力。

    深:行業延伸

    在企業搜索領域,十多年前就用公司提供簡單基礎的軟件程序,以關鍵詞的模糊查詢提供服務。隨著各行業信息查詢需求在升級,企業對搜索的定位和要求,已深入到了為業務目標服務的層面。

    金融投資領域的信息檢索,包含有海量資訊搜集、機構信息數據獲取、事件分析挖掘等,涵蓋有數據收集、清洗、整合和推理等,形成了偏關聯性推理導向的需求;電商場景中有大量商品與服務信息,商品查詢的目標體現在個性化匹配、銷售額整體轉化率、平臺流量的分發與管理上;客戶服務領域的信息查詢,更多的是對非結構化文檔的內容處理,對客戶化的QA問答、會話任務處理和文檔材料查詢上;人力資源領域的JD簡歷查詢,則是以理解業務知識為基礎,信息填充到搜索的知識圖譜中去。

    通用而粗淺的搜索軟件程序,已無法對復雜的業務查詢形成有深度的助力,每一個場景背后都是需要多項能力的組合方案。

    達觀數據企業級搜索的能力

    達觀數據的搜索方案專注在金融、司法、軍工、制造業等行業,構建的是包含了統數據獲取、模型訓練、搜索應用與管理的企業搜索平臺,在核心的算法技術與架構、行業場景數據積累、模塊化解決方案組件三個維度進行沉淀積累,形成專業的企業搜索解決方案。

    企業級搜索平臺分為智能分析、智能搜索、智能展現、智能管理四方面能力:

    智能分析

    達觀數據搜索平臺的智能分析模塊,包含內容處理與內容分析兩部分。

    內容處理是指對需要接入的數據內容做基本處理:

    1、先進行結構化的轉換,比如圖片內容進行OCR的光學字符識別、語音內容進行ASR的文字轉換等,讓多媒體格式轉換為文本信息。

    2、對相應的內容進行拆分和提取,典型的如期刊文獻會有標題介紹、插圖、表格提取、結構化目錄、時間/來源等要素的提取和關聯。

    內容分析則是對要搜索的內容進行挖掘和建模:

    1、在內容的語義理解的層面上,對歷史查詢和目標文件進行處理,以自然語言理解技術在字詞層級做新詞發現、詞性識別、擴展詞挖掘;在語句段落層面做查詢意圖分類、依存句法識別、文本糾錯等處理;在段落和文章級別進行內容分類、主題模型、自動摘要等處理。

    2、根據具體的場景需要,在業務應用層面構建定義統一的業務知識模型,抽取業務實體屬性、做知識對齊數據融合,為關聯推理等知識圖譜應用服務。

    整個智能分析的過程是在搜索發生以前,涉及到數據清洗、模型訓練調優、人工校驗等工作,是機器對所要處理的內容進行理解的過程,同時需要業務專家介入指導。分析處理等工作用戶是無感知的,但會明顯的影響上線初期的查詢效果。

    智能搜索

    智能搜索的能力貫穿整個用戶搜索流程,一次完整的搜索流程,是從用戶針對某一目標輸入內容開始,到進入到下一個搜索目標開始時結束。

    對不同用戶,在搜索時是帶著各自的用戶畫像進入的,熱門搜索、輸入提示、意圖分類等應用加快查詢的理解;搜索內容改寫、語義擴展詞等是對查詢內容進行補充;通過語義標簽、自動摘要、篩選和排序選擇等功能,搜索引擎能快速定位到結果范圍。

    排序是搜索引擎的核心模塊之一,可以簡單分為基礎粗排序、精確排序和業務重排序三個步驟,分別是指根據查詢相關性函數的模型排序、基于行為數據學習的模型排序、業務邏輯中特殊情況排序。搜索后的切換關鍵詞、篩選、點擊、翻頁等都會記錄到搜索中的行為日志,會影響搜索的排序模型調優和效果分析。拉開搜索的水平效果的,主要是粗排的召回策略和精排的學習算法兩個環節,這里涉及到諸多技術和算法細節。達觀的排序框架會根據業務場景進行模型與策略上的調整。

    精準度提高的同時,搜索的查詢范圍和查詢方式也在擴大:支持對圖片、音頻、視頻等格式的內容進行搜索,對QA問答、Wiki百科、流程嵌套附件等復雜結構的定位搜索,表格內容信息理解與查詢,圖數據庫的推理、問答和對比等復雜邏輯的查詢等等。

    智能展現

    達觀數據企業搜索平臺在用戶搜索到內容后,結果的顯示包含知識卡片、結果列表、圖片和數據圖表、系統服務界面、知識圖譜等多種呈現的形態。

    知識卡片是根據確定的搜索意圖,以用戶易于理解的形式將結構化信息重新組合呈現,可以實現對人物卡片、物品信息、組織架構、接入的系統服務(比如郵箱中往來郵件、OA中請假流程等)等的快速搜索理解和嵌入式卡片信息呈現。對結構化數據以圖形化呈現,把表格數據以業務場景的需要自動轉換為直觀的圖表,針對經常使用的數據場景,預置了諸如分析比例構成的環形圖、相互比較的走勢圖、關聯分析的散點圖等,省去了人工對數據處理取結論的繁復過程。

    在語義搜索的同時,同步對知識圖譜進行查詢,在推理問答等的業務場景下,圖數據庫的查詢效率和可解釋性更好,信息脈絡關系呈現更直觀。

    智能管理

    達觀企業搜索平臺的智能管理,主要是包括數據統計、模型訓練和算法評估、文檔內容管理、搜索配置等的管理,以及部分常用的數據系統的接入與權限管理。

    搜索的數據統計分析是將用戶端查詢進行記錄,根據指標進行統計分類和分析,體現出搜索整體的情況,比如熱門搜索、搜索無結果等。搜索的管理配置則包含有意圖分類訓練、badcase管理、算法效果評估、詞庫管理等工具,提升搜索引擎在算法效果的客觀性和維護效率。

    企業級搜索面對的數據源主要有數據庫類、知識文檔管理類、各類IT辦公系統類、互聯網采集類、生產制造系統類等等。為確保數據對接準確與規范,一般會把數據和權限信息按照指定的接口上報給搜索引擎,或者對要接入的系統資源定時掃描同步變更。搜索平臺采用RBAC權限管理機制,基于統一的用戶和角色對接入資源進行權限管理。

    搜索引擎背后折射的企業IT建設水平

    通過互聯網搜索信息幾秒就可以找到所需內容,而在工作場景中常常發生的是,昨天在公司某系統看到的文件今天就搜索不到的情況。從企業內的實際情況來看,一個“公司里搜不到信息”的情境,不僅僅是搜索技術的問題,其實也是企業協作效率、IT技術能力、管理水平的體現。(達觀數據)

    業務視角

    業務往往是企業的核心競爭力,員工在信息獲取能力上的差異,也影響著工作效率,知識在企業內部的能夠有效的沉淀、管理、傳遞與擴散,會給員工的業務能力和決策效率帶來提升。

    國內某科研機構的智能搜索項目上線時,同步挖掘了報告材料間的上下游、引用、轉述等關系。研究人員在查詢到目標報告時能直接體現出材料之間內容關系,間接提高了機構課題研究的工作效率。

    技術視角

    信息技術對業務的賦能后,使得企業實現彎道超車的案例比比皆是,技術創新的收益往往比較直觀。當前人工智能技術應用的價值,已經在被各行業的頭部企業所認可,智能文本處理是企業內應用較為普遍的一類:文檔資料數據的搜索、合同的自動審核比對、商品的個性化推薦、系統數據自動化流轉等應用比比皆是,文本智能化正在迅速地應用到桌面辦公的各個場景。

    搜索是多項文本智能技術的匯總,有著比較廣泛的企業應用場景覆蓋,比如企業級搜索、對外的服務查詢、資料文檔庫搜索、多媒體信息查詢、智能客服、系統日志查詢分析等等。

    管理視角

    企業搜索能夠與企業的門戶、文檔信息系統、通訊/流程/培訓系統、資源業務系統等進行整合,各部門因工作目標和內容的不同,對企業目標的理解和執行難免會有盲區,實施此類多部門跨業務的項目,需要管理者透視公司的信息流和業務運轉,高瞻遠矚地規劃建設方案和管理思想,落地務實地推進系統能力和應用效果,發揮企業內搜索到統一信息知識管理的價值。

    搜索是企業信息資產整理匯總后的出口,每個員工都可以各取所需,企業級搜索的應用是信息、業務、管理的組織效率的體現。運用企業級搜索,小到找出一份合同補充材料解決內部溝通的效率問題,大到針對核心產品盤點資源投入以洞察公司的發展情況,在多個視角下企業搜索都能發揮出相應的價值。運用人工智能技術去重塑企業級搜索服務,是企業全方位的效率提升。

    about

    關于作者

    張泓卿:達觀數據項目合作部資深解決方案專家,企業搜索產品經理。對人工智能產品的產品定位、規劃迭代、方案設計與落地有一定的理解,對AI產品的行業解決方案落地與新技術商業化有濃厚興趣。

    分享到:
     
     
     
    0相關評論
     
    熱門產品
     
    推薦新聞
    推薦廠商
     
    關于我們 | 聯系我們 | 廣告服務 | 版權隱私 | 積分換禮 | 友情鏈接 | 站點導航 | 違規舉報
     
    印第安