獨家洞察 | 使用大型語言模型與您的數據“對話”

    隨著生成式人工智慧的崛起,可靠的數據在實際決策流程中變得愈發關鍵。通過語言生成指令的大型語言模型(LLM)流行起來,如當前大熱的ChatGPT,意味著機器交互已迎來顯著革新,爲我們用自然語言,以近似同事交流的1000u是多少臺幣方式與數據”對話“打開了新的機遇。


    這種突破性的互動方式透過文字實現了無縫溝通。現在使用者隻需簡單輸入文字,即可享受便利的資料檢索服務。這種聊天式體驗為傳統資料產品介麵的瀏覽提供了極具前景的簡化替代路徑,而過去使用者通常需要經歷一段學習過程。


    近期推出的測試版FactSet Mercury正是這種進步的典型體現。這款基於LLM的知識工具旨在為初級銀行從業者提供工作流程支持,並強化基於事實的決策。 Mercury用戶隻需輕鬆給出如「依資產狀況顯示加州的前50家銀行」這樣的提示,便可進行無數複雜的查詢。


    打造一個能高效利用大量企業數據的聊天機器人係統是一項極具挑戰但值得的任務。接下來,讓我們一起探討慧甚如何攻克這些挑戰,狗 狗 幣 最新 消息為數據驅動的創新鋪路。


    檢索式增強生成方法


    LLM產生的合理回應主要基於其訓練的數據,這些數據大多來自網路。但在非公開資料環境中尋求答案(如企業內部),則需要利用這些專有資料來增強LLM的能力。


    這種方法稱為檢索式增強生成方法(RAG),它結合LLM的推理與真實數據,產生基於專有數據的準確答案。 RAG的優點在於無需重新訓練或精細調整LLM,同時也能減少「幻覺」現象,因為答案直接來自專有資料而非LLM的自身生成。


    要理解如何在資料背景下產生答案,我們首先需要了解資料類型。在企業環境中,資料主要分為非結構化資料和結構化資料兩大類。


    非結構化資料沒有固定的格式或結構,如文字資料(電子郵件、文件等)、泰達 幣 詐騙 交友新聞文章和轉錄內容等。這些數據富含資訊,主要用於提取定性洞察。


    對於這類非結構化數據,RAG模型涉及梳理大量預索引文件集合,這些文件來自企業專有數據或第三方可信任知識來源。目標是識別與使用者提示最相關的文檔,並在這些文檔的背景下產生對使用者問題的回應。


    結構化資料則以規定的方式組織,通常呈現為行和列的形式。資料庫表格是結構化資料的典型代表,廣泛應用於定量分析。


    然而,將結構化資料應用於RAG帶來了獨特的挑戰。與文字資料不同,結構化資料無法預先索引,因此需要採用不同的方法來檢索並與語言模型互動。


    結構化資料 RAG


    以先前提到的使用者問題為例:「以資產狀況顯示加州的前50家銀行。」這個問題看似簡單直接,但實際上涉及多個複雜步驟的協同工作。聊天機器人需要:


    理解問題:在整合結構化和非結構化資料的環境中,聊天機器人需要判斷問題所需的資料類型。在這個例子中,由於答案隱藏在表格資料中,因此我們將其歸類為結構化資料問題。


    確定資料元素:聊天機器人必須辨識出回答問題所需的不同資料元素。在本例中,這包括銀行、資產規模和地理位置(加州)。


    定位資料來源:聊天機器人需要知道從哪裡取得相關資訊。這可能是一個資料庫表格、多個資料庫中的多個表格,或是資料配置服務或API。


    檢索資料:找到資料來源後,聊天機器人需要執行對應的查詢來檢索資料。這可能涉及直接執行資料庫查詢或透過資料配置層進行查詢。狗狗幣如何買?


    執行操作:為了顯示加州資產最高的前50家銀行,聊天機器人需要根據資產狀況對銀行進行排序並選擇前50家。這不僅涉及資料檢索,還包括應用正確的排序和篩選邏輯。


    產生使用者友善的回應:最後,聊天機器人需要以清晰易懂的方式呈現訊息。根據問題的不同和聊天機器人的能力,這可能是一個簡單的文字回應、一個表格,甚至是一個視覺化圖表。


    這個加州銀行的例子顯示了人工智慧聊天機器人在處理結構化資料時的複雜性。這不僅涉及語言理解,還包括與多種來源的數據進行有效互動和處理,以提供準確且相關的回應。


    語意豐富的元數據


    多數元資料的設計並未考慮LLM的能力與需求。這構成了一個重大挑戰:LLM需要指導才能瀏覽和解釋資料庫中的大量資料和元資料。元資料(即關於資料的資料)對於理解儲存資訊的內容和上下文至關重要,但它們可能不完整、遺失或採用不相容的格式存在。


    為了彌補這一缺陷並為LLM提供有效的支持,我們需要引入語義豐富的元資料。這類元資料提供了額外的描述性資訊和關於資料的上下文背景,有助於LLM準確地將使用者問題對應到正確的資料來源和具體欄位上。


    例如,在回答加州銀行的問題時,LLM需要能夠將查詢與諸如銀行名稱、銀行ID、州名和資產價值等欄位關聯起來。


    通過增強元數據的語義豐富性,我們可以顯著提高LLM在確定和檢索信息片段以回應用戶查詢時的準確性。這個過程不僅涉及從問題中識別關鍵詞,還包括理解這些關鍵詞與數據庫中數據字段之間的關聯。因此,在企業中部署LLM時,其性能在很大程度上取決於與數據模型一起提供的元數據的質量和兼容性。


    程式碼產生與執行


    回覆使用者查詢的過程始於識別必要的資料字段,然後需要檢索和處理這些資料。這通常涉及篩選、排序等操作,可以透過程式語言、查詢語言或二者的結合來實現。查詢語言在資料檢索方麵非常高效,而程式語言則為資料處理提供了廣泛的功能。


    對於經驗豐富的軟體工程師來說,編寫用於資料處理的程式碼可能相對容易。然而,讓LLM可靠地執行這些程式碼則是一個更大的挑戰。在某些情況下,LLM可能需要直接參與資料檢索和操作。


    儘管LLM在基本資料操作方麵的程式碼編寫能力相對較強,但在處理複雜資料關係時可能會遇到更多困難。因此,透過LLM以外的方式進行資料檢索可能會降低生成程式碼中錯誤的風險,並允許LLM專注於資料處理任務。


    為了確保LLM能夠處理複雜的資料關係並產生所需的結果來回應使用者的問題,我們需要提供明確的指導。這通常透過所謂的「提示工程」來實現,即編寫能夠有效傳達所需操作的指令給LLM。


    這個過程有兩個目標,一是引導LLM理解任務並產生可以準確執行所需資料處理的程式碼或指令。指導對於確保LLM能夠處理資料關係的複雜性並針對使用者的問題產生期望的結果至關重要。


    在一些罕見的情況下,我們還需要考慮如何處理產生的程式碼無法執行、資料缺失或意外錯誤等異常情況,並向最終使用者顯示適當的資訊。


    此外,在執行檢索到的資料時,必須確保程式碼的安全性,並將程式碼的輸出轉換為易於理解且使用者友好的格式。提示工程和軟體工程中的很大一部分工作都涉及開發這些組件並進行精細調整,以產生所需的回應。


    注入專業知識


    使用者有時可能會提出模糊的問題,例如「大型銀行是否比小型銀行更賺錢?」這類問題往往尋求的不是具體的數值數據,而是一種分析或洞察。因此,聊天機器人需要能夠瀏覽一係列假設來提供有意義的答案。


    為了支持這種需求,我們將知識庫整合到聊天機器人之中。透過引入領域專業知識,聊天機器人可以更好地理解和界定關鍵概念(例如什麼是大型銀行或小型銀行),並確定用於評估獲利能力的指標。


    利用這些外部知識庫,聊天機器人可以正確解釋數據並增強相關資訊片段來建立答案。這種方法使聊天機器人能夠處理更廣泛的查詢,包括那些需要主觀分析或從可用數據中得出結論的查詢。


    結論


    在企業資料環境中整合生成式人工智慧在很大程度上仍屬於尚未開發的領域,可以帶來大量的潛在好處。隨著企業對生成式人工智慧的應用不斷加速發展,我們可以預見這一領域將湧現出更複雜和創新的用例。


    作者簡介

    圖片

    尤根德拉·米拉傑

    首席機器學習工程師


    Yogendra Miraje是慧甚FactSet首席機器學習工程師。他負責領導工程工作,將前沿人工智慧解決方案整合到慧甚的數據生態係統中,可協助客戶發現內容並從數據中導出可信賴洞察。 Yogendra先前在慧甚收購的Truvalue Labs任職,投身後端和機器學習基礎技術開發。他在印度獲得了工程學士學位,並擁有美國東北大學的電腦科學碩士學位。

    歡迎與我們分享您在業務上的挑戰:https://go.factset.com/zh/

  • 突發消息!若賀錦麗11月勝選,TA將頂替耶倫出任美國財長……

    股票 2025-11-16 23:46 1157

    FX168財經報社(亞太)訊 據華盛頓記者報(Washington Reporter)和多家外媒週一(8月19日)披露,若美國副總統、準民主黨總統候選人賀錦麗(Kamala Harris)在今年11月

  • 加拿大國內生產總值上升,但加元仍維持在近期低點附近

    熱點專題 2025-11-16 23:16 2394

    儘管加拿大經濟數據良好,但週一加元仍下跌了 0.2%。加拿大國內生產總值增長數據反彈,通貨膨脹指標也有所下降。節假日期間的交易安排和美國耐用品訂單的下降使多頭看漲。週三,加元兌美元下跌了約0.2%。新

全站熱門

瑞波幣XRP保持對稱三角形支撐,因為美國證券交易委員會(SEC)承認Bitwise的XRP ETF申請

瑞波幣XRP保持對稱三角形支撐,因為美國證券交易委員會(SEC)承認Bitwise的XRP ETF申請

川普可能建立「影子」聯準會主席!《華爾街日報》:鮑威爾任期獨立性恐受破壞

川普可能建立「影子」聯準會主席!《華爾街日報》:鮑威爾任期獨立性恐受破壞

韓國加密貨幣投資者超過 1559 萬,持有資產 79B 美元

韓國加密貨幣投資者超過 1559 萬,持有資產 79B 美元

金價預測:黃金/美元在對烏克蘭和平協議的希望中維持在3050美元以下

金價預測:黃金/美元在對烏克蘭和平協議的希望中維持在3050美元以下

獨家洞察 | 聯準會不會在9月降息

獨家洞察 | 聯準會不會在9月降息