大型商業模型提供了出色的功能
Posted: Wed Dec 04, 2024 7:24 am
每個企業的資料都儲存在不同的地方。企業可以選擇建立單獨的解決方案來提取、分塊、建立嵌入並將這些嵌入儲存在向量資料庫中。然而,我們並不認為這是將企業資料帶入 GenAI 領域的最高效、最有效的方式。我們正在研究一種更有效的方法,稱為爬蟲框架。這些程序化爬蟲連接到企業資料來源,以標準化方式提取數據,並確定保護該資料所需的權利。他們還確定企業保護資料所需的內部分類、標記和其他相關項目。他們將非結構化資料轉換為標準化格式,然後可以將其攝取到管道中並根據專案需求進行向量化以滿足準確性要求。
方法很簡單:資料來源、爬蟲、資料的標準化輸出以及相關的元資料。提取的資料的每一位都具有包含權利、分類、標籤和主題的元資料。此元資料保護每個資料塊。當資料被攝取、分塊、向量化 希臘手機號碼列表 並儲存在向量資料庫中時,每筆記錄都包含具有權利的元資料。然後,檢索器可以確保權利與使用者所需的存取群組匹配,因此僅返回使用者有權查看的資料。
作為一家大型企業,英特爾的數據來自許多來源:資料共享系統、wiki 系統、用於儲存文件的自訂系統等。向量中。這意味著,當我們建立人工智慧編排層並處於特定使用者的問答過程時,由於不同的權利,即使使用相同的資料來源,一個使用者也可能會得到與另一個使用者不同的回應。
請注意,這並不意味著我們(或任何企業)應該將所有資料儲存在單一向量儲存中。這更多的是一種概念方法,企業需要根據自己的需求拆分資料。有些企業也因為各種原因要求資料在物理上分開,這完全沒問題。
現在我們已經對資料進行了向量化並儲存了每個單獨向量的權利,我們可以開始建立 AI 工作流程。當每個使用者都需要資訊時,我們就可以開始提取這些數據。我們相信,可以透過集中資料的語義描述並使用語義相似性搜尋來尋找並帶回正確的資料來幫助回答問題或採取行動來改進這一點。
這是我們仍在構思和設計的東西。透過將資料、RAG 管道、模型和 AI 工作流程視為一個整體系統,並利用生成 AI 領域中不同工具的強大功能,我們正在建立一個支援企業對安全性和可擴展性要求的整體平台。
方法很簡單:資料來源、爬蟲、資料的標準化輸出以及相關的元資料。提取的資料的每一位都具有包含權利、分類、標籤和主題的元資料。此元資料保護每個資料塊。當資料被攝取、分塊、向量化 希臘手機號碼列表 並儲存在向量資料庫中時,每筆記錄都包含具有權利的元資料。然後,檢索器可以確保權利與使用者所需的存取群組匹配,因此僅返回使用者有權查看的資料。
作為一家大型企業,英特爾的數據來自許多來源:資料共享系統、wiki 系統、用於儲存文件的自訂系統等。向量中。這意味著,當我們建立人工智慧編排層並處於特定使用者的問答過程時,由於不同的權利,即使使用相同的資料來源,一個使用者也可能會得到與另一個使用者不同的回應。
請注意,這並不意味著我們(或任何企業)應該將所有資料儲存在單一向量儲存中。這更多的是一種概念方法,企業需要根據自己的需求拆分資料。有些企業也因為各種原因要求資料在物理上分開,這完全沒問題。
現在我們已經對資料進行了向量化並儲存了每個單獨向量的權利,我們可以開始建立 AI 工作流程。當每個使用者都需要資訊時,我們就可以開始提取這些數據。我們相信,可以透過集中資料的語義描述並使用語義相似性搜尋來尋找並帶回正確的資料來幫助回答問題或採取行動來改進這一點。
這是我們仍在構思和設計的東西。透過將資料、RAG 管道、模型和 AI 工作流程視為一個整體系統,並利用生成 AI 領域中不同工具的強大功能,我們正在建立一個支援企業對安全性和可擴展性要求的整體平台。