跳至主要內容

使用 Databricks 進行資料分析

今日已更新

Databricks 連接器為 Claude 提供了通過 Unity Catalog 存取您組織內部資料的能力,使其能夠分析您的資料庫、執行自訂業務邏輯以及存取非結構化文件。Databricks 提供三個獨立的連接器:一個用於函數、一個用於向量搜尋,以及一個用於 Genie,每個都存取您 Databricks 工作區內的不同功能。

Databricks 元件提醒

在探索 Claude 可以使用 Databricks 做什麼之前,重要的是要了解您 Databricks 工作區內存在的三個核心元件:

  1. Unity Catalog 函數:您的組織為特定計算、資料轉換或 API 整合而建立的自訂 Python 或 SQL 函數。這些可能包括專有評分演算法、標準化財務計算或業務特定的資料處理邏輯。

  2. 向量搜尋:在您組織的文件和資料集上建立的語義搜尋索引。這些允許搜尋概念上相似的內容,即使精確關鍵字不匹配。

  3. Genie:一個自然語言介面,將純英文問題轉譯為針對您資料的 SQL 查詢。Genie 使用有關您的表和列的中繼資料來理解業務術語並生成適當的查詢。

此連接器提供的功能

整合功能

通過 Databricks 整合,Claude 可以存取您工作區中的資源:

  • 執行自訂函數:Claude 可以執行由您的組織定義的 Unity Catalog 函數。這包括執行複雜的業務邏輯、應用計算或通過您的團隊建立的函數呼叫外部 API。例如,如果您的組織建立了自訂客戶健康評分函數,Claude 可以在分析中一致地應用它。

  • 語義搜尋:使用向量搜尋索引,Claude 可以根據含義而不僅僅是關鍵字來尋找相關文件和內容。這對於搜尋合約、研究報告、客戶反饋或技術文件特別有用,其中相似的概念可能以不同的方式表達。

  • 自然語言查詢:通過 Genie,Claude 可以將純英文問題轉譯為 SQL 查詢。您無需編寫複雜的 SQL,而是可以提出「我們上季度的收入增長是多少?」之類的問題,Claude 將使用 Genie 生成並執行適當的查詢。

  • 受管存取:通過連接器的所有資料存取都遵守您組織的 Unity Catalog 權限和政策。Claude 只能存取和執行您的使用者帳戶有權限使用的資料和函數。

Claude 如何使用 Databricks 資料

Claude 以多種方式應用 Databricks 功能來支援全面的資料分析:

  • 多來源分析:Claude 結合來自資料庫查詢、向量搜尋和自訂函數的結果,以提供全面的見解。例如,在驗證投資論點時,Claude 可能會從您的投資組合資料庫查詢歷史財務績效、搜尋過去的盡職調查報告以尋找類似的行業投資,並應用您的專有 IRR 計算函數來模擬預期回報。

  • 迭代探索:Claude 可以查詢資料、分析初始結果,並根據發現改進搜尋。這允許進行分析,其中一個查詢的見解會影響下一個查詢。

  • 自訂邏輯應用:通過執行 Unity Catalog 函數,Claude 應用您組織的特定規則和計算。這確保專有指標、調整後的計算和公司特定的邏輯在所有分析中統一應用。

  • 上下文查詢建立:當您用純英文提出問題時,Claude 使用 Genie 將其轉譯為適當的 SQL 查詢。此轉譯考慮您的表結構、列名稱和關係,以生成與您的資料庫結構相符的準確查詢。

  • 模式識別:通過向量搜尋,Claude 可以在文件和資料中尋找模式和相似性。這有助於尋找相關問題、類似交易或可能不明顯的可比情況,這些情況通過傳統關鍵字搜尋可能不明顯。

設定 Databricks 連接器

Databricks 整合由三個獨立的連接器組成,每個都需要單獨設定:

  1. 函數伺服器:存取 Unity Catalog 函數以進行計算、業務邏輯和資料轉換。

  2. 向量搜尋伺服器:在索引文件和資料集中啟用語義搜尋。

  3. Genie 伺服器:提供自然語言到 SQL 查詢轉譯功能。

Databricks 連接器的技術詳情可在 Databricks 的 MCP 伺服器文件中找到。Databricks 連接器的驗證通過 OAuth(適用於 Claude.ai 和 Claude Desktop)或通過 Databricks 個人存取令牌(僅適用於 Claude Desktop)進行處理。

作為組織所有者新增連接器

  1. 向下捲動並按一下清單底部的「新增自訂連接器」。

  2. 輸入 您的 Databricks 工作區的整合 URL

  3. 命名整合。請記住有三個獨立的 Databricks 伺服器,因此請考慮為每個伺服器唯一命名(例如「Databricks UC」、「Databricks Genie」、「Databricks Search」)

  4. 按一下「新增」

適用於個別使用者

常見使用案例

可用資源範例

為了說明這些功能如何協同工作,請考慮一家配置了以下 Databricks 資源的私募股權公司:

此情景中的表

  1. portfolio_companies:公司詳情、收購資訊、目前估值和債務水準

  2. financial_statements:期間財務,包括收入、調整後的 EBITDA 和客戶數量、流失率等營運指標

  3. market_comparables:行業可比公司及其估值倍數和增長率

  4. due_diligence_docs:盡職調查報告、分析文件和交易備忘錄的儲存庫

此情景中的 Unity Catalog 函數

  1. calculate_normalized_ebitda():對報告的 EBITDA 應用標準私募股權調整,移除一次性成本並標準化所有者薪酬

  2. compute_portfolio_irr():根據現金流和持有期計算內部回報率和投資資本倍數

  3. estimate_debt_capacity():在各種情景下對最大槓桿能力進行建模,並進行契約合規性壓力測試

此情景中的向量搜尋索引

  1. due_diligence_index:在所有盡職調查文件、交易備忘錄和分析報告中進行語義搜尋

投資組合退出準備分析

範例輸入提示:

哪些投資組合公司已準備好退出?根據目前市場倍數顯示估值範圍和
預期回報。

對於此分析,Claude 可能會在以下步驟中使用不同的 UC 函數和 Genie:

  1. Genie:識別持有超過 3 年的投資組合公司並檢索其最新財務資訊。

  2. UC 函數:為每家公司呼叫 calculate_normalized_ebitda() 以應用 PE 調整。

  3. UC 函數:執行 compute_portfolio_irr() 以計算每家公司的 IRR 和 MOIC。

  4. Genie:查詢市場可比公司並將行業倍數應用於標準化 EBITDA 以獲得估值範圍。

Claude 隨後可能會在摘要中報告其結果,顯示基於目前市場倍數的退出準備公司及其 IRR、MOIC 和估值範圍。

新交易估值

範例輸入提示:

我們正在評估 TechCorp 收購(SaaS,4,500 萬美元收入,1,200 萬美元 EBITDA)。
公平估值是多少,我們能支援多少債務?在您的分析中包括以前的
盡職調查記錄。

為了完成此請求,Claude 可能會遵循此工作流程:

  1. Genie:查詢目標行業中類似規模公司的市場可比公司,以建立估值基準。

  2. UC 函數:使用目標指標呼叫 estimate_debt_capacity() 以模擬槓桿情景並進行契約合規性壓力測試。

  3. 向量搜尋:在盡職調查索引中搜尋相關的價值創造劇本和先例交易。

  4. 綜合:結合結果以生成估值範圍、建議的資本結構和相關先例。

理想情況下,Claude 隨後會提供有關估值範圍和建議報價的報告,同時引用導致其建議的來源。

契約違約風險評估

範例輸入提示:

如果我們看到整個投資組合的 EBITDA 下降 15-25%,哪些公司面臨
契約違約風險?我們應該採取什麼行動?

對於此任務,Claude 可能會使用以下資源:

  1. Genie:識別有債務的投資組合公司,重點關注槓桿比率超過 4 倍的公司。

  2. UC 函數:為每家高槓桿公司呼叫 calculate_normalized_ebitda() 以建立基線。

  3. UC 函數:為每家公司執行 estimate_debt_capacity(),分別進行 15%、20% 和 25% 下降情景。

  4. Genie:查詢歷史財務資訊以識別營運資本趨勢惡化的公司。

Claude 隨後可能會提供違約風險分析,按公司和情景組織。

使用 Databricks 的提示

  • 對您要尋找的資料要具體。

    • 範例:與其「分析客戶」,不如嘗試「按...顯示我們的前 20 個客戶」

  • 使用「尋找相似」語言進行模式匹配

    • 範例:「尋找提及類似於此投訴的問題的反饋。」

  • 請記住,所有資料存取權限都遵循您的 Unity Catalog 權限。Claude 只能存取您可以存取的資料。

  • 自訂函數提供一致的計算。考慮為計算標準化指標新增 UC 函數。

  • 複雜分析可能需要多個步驟。先要求一個計畫並檢查 Claude 的建議方法。

是否回答了您的問題?