跳转到主要内容

使用 Databricks 进行数据分析

一周前更新

Databricks 连接器为 Claude 提供了通过 Unity Catalog 访问您组织内部数据的能力,支持分析数据库、运行自定义业务逻辑和访问非结构化文档。Databricks 提供三个独立的连接器:一个用于函数,一个用于向量搜索,一个用于 Genie,每个都访问 Databricks 工作区内的不同功能。

Databricks 组件提醒

在探索 Claude 可以使用 Databricks 做什么之前,了解 Databricks 工作区内存在的三个核心组件很重要:

  1. Unity Catalog 函数:您的组织为特定计算、数据转换或 API 集成创建的自定义 Python 或 SQL 函数。这些可能包括专有评分算法、标准化财务计算或特定业务的数据处理逻辑。

  2. 向量搜索:在您组织的文档和数据集上构建的语义搜索索引。这些允许搜索概念上相似的内容,即使精确关键字不匹配。

  3. Genie:一个自然语言界面,将纯英文问题转换为针对您数据的 SQL 查询。Genie 使用关于您的表和列的元数据来理解业务术语并生成适当的查询。

此连接器提供的功能

集成功能

通过 Databricks 集成,Claude 可以访问您工作区中的资源:

  • 执行自定义函数:Claude 可以运行由您的组织定义的 Unity Catalog 函数。这包括执行复杂的业务逻辑、应用计算或通过您的团队创建的函数调用外部 API。例如,如果您的组织构建了自定义客户健康评分函数,Claude 可以在分析中一致地应用它。

  • 语义搜索:使用向量搜索索引,Claude 可以根据含义而不仅仅是关键字查找相关文档和内容。这对于搜索合同、研究报告、客户反馈或技术文档特别有用,其中相似的概念可能以不同的方式表达。

  • 自然语言查询:通过 Genie,Claude 可以将纯英文问题转换为 SQL 查询。您无需编写复杂的 SQL,可以提出诸如"我们上个季度的收入增长是多少?"之类的问题,Claude 将使用 Genie 生成并执行适当的查询。

  • 受管访问:通过连接器的所有数据访问都遵守您组织的 Unity Catalog 权限和策略。Claude 只能访问您的用户账户有权使用的数据和执行函数。

Claude 如何使用 Databricks 数据

Claude 以多种方式应用 Databricks 功能来支持全面的数据分析:

  • 多源分析:Claude 结合来自数据库查询、向量搜索和自定义函数的结果来提供全面的见解。例如,在验证投资论点时,Claude 可能从您的投资组合数据库查询历史财务表现,搜索过去的尽职调查报告以了解类似的行业投资,并应用您的专有 IRR 计算函数来模拟预期回报。

  • 迭代探索:Claude 可以查询数据、分析初始结果,并根据发现完善搜索。这允许进行分析,其中一个查询的见解为下一个查询提供信息。

  • 自定义逻辑应用:通过执行 Unity Catalog 函数,Claude 应用您组织的特定规则和计算。这确保专有指标、调整后的计算和公司特定的逻辑在所有分析中统一应用。

  • 上下文查询构建:当您用纯英文提出问题时,Claude 使用 Genie 将其转换为适当的 SQL 查询。此转换考虑您的表结构、列名和关系,以生成与您的数据库结构匹配的准确查询。

  • 模式识别:通过向量搜索,Claude 可以在文档和数据中查找模式和相似性。这有助于查找相关问题、类似交易或可能通过传统关键字搜索不明显的可比情况。

设置 Databricks 连接器

Databricks 集成由三个独立的连接器组成,每个都需要单独设置:

  1. 函数服务器:访问 Unity Catalog 函数以进行计算、业务逻辑和数据转换。

  2. 向量搜索服务器:支持跨索引文档和数据集的语义搜索。

  3. Genie 服务器:提供自然语言到 SQL 查询转换功能。

Databricks 连接器的技术详情可在 Databricks 的 MCP 服务器文档中找到。Databricks 连接器的身份验证通过 OAuth(用于 Claude.ai 和 Claude Desktop)或通过 Databricks 个人访问令牌(仅用于 Claude Desktop)处理。

作为组织所有者添加连接器

  1. 向下滚动并单击列表底部的"添加自定义连接器"。

  2. 输入 您的 Databricks 工作区的集成 URL

  3. 命名集成。请记住有三个独立的 Databricks 服务器,因此请考虑为每个服务器唯一命名(例如,"Databricks UC"、"Databricks Genie"、"Databricks Search")

  4. 单击"添加"

对于个人用户

常见用例

可用资源示例

为了说明这些功能如何协同工作,考虑一个配置了以下 Databricks 资源的私募股权公司:

此场景中的表

  1. portfolio_companies:公司详情、收购信息、当前估值和债务水平

  2. financial_statements:期间财务报表,包括收入、调整后的 EBITDA 和客户数量、流失率等运营指标

  3. market_comparables:行业可比公司及其估值倍数和增长率

  4. due_diligence_docs:尽职调查报告、分析文档和交易备忘录的存储库

此场景中的 Unity Catalog 函数

  1. calculate_normalized_ebitda():对报告的 EBITDA 应用标准私募股权调整,消除一次性成本并标准化所有者补偿

  2. compute_portfolio_irr():根据现金流和持有期计算内部收益率和投资资本倍数

  3. estimate_debt_capacity():在各种情景下对最大杠杆能力进行建模,包括契约合规压力测试

此场景中的向量搜索索引

  1. due_diligence_index:跨所有尽职调查文档、交易备忘录和分析报告的语义搜索

投资组合退出准备分析

示例输入提示:

哪些投资组合公司已准备好退出?根据当前市场倍数显示估值范围和
预期回报。

对于此分析,Claude 可能在以下步骤中使用不同的 UC 函数和 Genie:

  1. Genie:识别持有超过 3 年的投资组合公司并检索其最新财务数据。

  2. UC 函数:为每个公司调用 calculate_normalized_ebitda() 以应用 PE 调整。

  3. UC 函数:执行 compute_portfolio_irr() 为每个公司计算 IRR 和 MOIC。

  4. Genie:查询市场可比数据并将行业倍数应用于标准化 EBITDA 以获得估值范围。

Claude 随后可能会报告其结果,显示基于当前市场倍数的退出就绪公司及其 IRR、MOIC 和估值范围。

新交易估值

示例输入提示:

我们正在评估 TechCorp 收购(SaaS,收入 4500 万美元,EBITDA 1200 万美元)。
公平估值是多少,我们能支持多少债务?在您的分析中包括以前的
尽职调查记录。

为了完成此请求,Claude 可能遵循以下工作流程:

  1. Genie:查询目标行业中类似规模公司的市场可比数据以建立估值基准。

  2. UC 函数:使用目标指标调用 estimate_debt_capacity() 以模拟杠杆情景并压力测试契约合规性。

  3. 向量搜索:在尽职调查索引中搜索相关的价值创造剧本和先例交易。

  4. 综合:结合结果生成估值范围、推荐的资本结构和相关先例。

理想情况下,Claude 随后会提供关于估值范围和推荐报价价格的报告,同时引用支持其建议的来源。

契约违约风险评估

示例输入提示:

如果我们看到整个投资组合的 EBITDA 下降 15-25%,哪些公司面临
契约违约风险?我们应该采取什么行动?

对于此任务,Claude 可能使用以下资源:

  1. Genie:识别有债务的投资组合公司,重点关注杠杆率超过 4 倍的公司。

  2. UC 函数:为每个高杠杆公司调用 calculate_normalized_ebitda() 以建立基线。

  3. UC 函数:为每个公司运行 estimate_debt_capacity(),分别进行 15%、20% 和 25% 下降情景。

  4. Genie:查询历史财务数据以识别营运资本趋势恶化的公司。

Claude 随后可能会提供违约风险分析,按公司和情景组织。

使用 Databricks 的提示

  • 明确说明您要查找的数据。

    • 示例:与其说"分析客户",不如说"按...显示我们的前 20 个客户"

  • 使用"查找相似"语言进行模式匹配

    • 示例:"查找提及类似此投诉的问题的反馈。"

  • 请记住,所有数据访问权限都遵循您的 Unity Catalog 权限。Claude 只能访问您可以访问的数据。

  • 自定义函数提供一致的计算。考虑为计算标准化指标添加 UC 函数。

  • 复杂分析可能需要多个步骤。先要求一个计划并审查 Claude 的建议方法。

这是否解答了您的问题?