메인 콘텐츠로 건너뛰기

데이터 분석을 위한 Databricks 사용

어제 업데이트함

Databricks 커넥터는 Unity Catalog를 통해 Claude에게 조직의 내부 데이터에 대한 액세스를 제공하여 데이터베이스 분석, 사용자 정의 비즈니스 로직 실행 및 비정형 문서 액세스를 가능하게 합니다. Databricks는 세 가지 별도의 커넥터를 제공합니다: 함수용 커넥터, 벡터 검색용 커넥터, Genie용 커넥터로, 각각 Databricks 워크스페이스 내의 다양한 기능에 액세스합니다.

Databricks 구성 요소 상기

Claude가 Databricks로 무엇을 할 수 있는지 살펴보기 전에 Databricks 워크스페이스 내에 존재하는 세 가지 핵심 구성 요소를 이해하는 것이 중요합니다:

  1. Unity Catalog 함수: 특정 계산, 데이터 변환 또는 API 통합을 위해 조직이 만든 사용자 정의 Python 또는 SQL 함수입니다. 여기에는 독점 채점 알고리즘, 정규화된 재무 계산 또는 비즈니스별 데이터 처리 로직이 포함될 수 있습니다.

  2. 벡터 검색: 조직의 문서 및 데이터 세트에 구축된 의미론적 검색 인덱스입니다. 정확한 키워드가 일치하지 않더라도 개념적으로 유사한 콘텐츠를 검색할 수 있습니다.

  3. Genie: 일반 영어 질문을 데이터에 대한 SQL 쿼리로 변환하는 자연어 인터페이스입니다. Genie는 테이블 및 열에 대한 메타데이터를 사용하여 비즈니스 용어를 이해하고 적절한 쿼리를 생성합니다.

이 커넥터가 제공하는 것

통합 기능

Databricks 통합을 통해 Claude는 워크스페이스의 리소스에 액세스할 수 있습니다:

  • 사용자 정의 함수 실행: Claude는 조직에서 정의한 Unity Catalog 함수를 실행할 수 있습니다. 여기에는 복잡한 비즈니스 로직 실행, 계산 적용 또는 팀이 만든 함수를 통한 외부 API 호출이 포함됩니다. 예를 들어, 조직이 사용자 정의 고객 상태 점수 함수를 구축한 경우 Claude는 분석 전체에서 일관되게 적용할 수 있습니다.

  • 의미론적 검색: 벡터 검색 인덱스를 사용하여 Claude는 키워드뿐만 아니라 의미에 기반하여 관련 문서 및 콘텐츠를 찾을 수 있습니다. 이는 계약, 연구 보고서, 고객 피드백 또는 유사한 개념이 다양한 방식으로 표현될 수 있는 기술 문서를 검색할 때 특히 유용합니다.

  • 자연어 쿼리: Genie를 통해 Claude는 일반 영어 질문을 SQL 쿼리로 변환할 수 있습니다. 복잡한 SQL을 작성하는 대신 "지난 분기의 매출 성장률은 얼마였나?"와 같은 질문을 할 수 있으며 Claude는 Genie를 사용하여 적절한 쿼리를 생성하고 실행합니다.

  • 관리된 액세스: 커넥터를 통한 모든 데이터 액세스는 조직의 Unity Catalog 권한 및 정책을 준수합니다. Claude는 사용자 계정이 사용 권한이 있는 데이터 및 함수만 액세스할 수 있습니다.

Claude가 Databricks 데이터를 사용하는 방법

Claude는 포괄적인 데이터 분석을 지원하기 위해 여러 가지 방식으로 Databricks 기능을 적용합니다:

  • 다중 소스 분석: Claude는 데이터베이스 쿼리, 벡터 검색 및 사용자 정의 함수의 결과를 결합하여 포괄적인 인사이트를 제공합니다. 예를 들어, 투자 논제를 검증할 때 Claude는 포트폴리오 데이터베이스에서 과거 재무 성과를 쿼리하고, 유사한 부문 투자에 대한 과거 실사 보고서를 검색하며, 예상 수익을 모델링하기 위해 독점 IRR 계산 함수를 적용할 수 있습니다.

  • 반복적 탐색: Claude는 데이터를 쿼리하고, 초기 결과를 분석하며, 발견 사항에 따라 검색을 개선할 수 있습니다. 이를 통해 한 쿼리의 인사이트가 다음 쿼리에 영향을 미치는 분석이 가능합니다.

  • 사용자 정의 로직 적용: Unity Catalog 함수를 실행함으로써 Claude는 조직의 특정 규칙 및 계산을 적용합니다. 이는 독점 메트릭, 조정된 계산 및 회사별 로직이 모든 분석에 걸쳐 균일하게 적용되도록 보장합니다.

  • 상황별 쿼리 작성: 일반 영어로 질문할 때 Claude는 Genie를 사용하여 적절한 SQL 쿼리로 변환합니다. 이 변환은 테이블 구조, 열 이름 및 관계를 고려하여 데이터베이스 구조와 일치하는 정확한 쿼리를 생성합니다.

  • 패턴 인식: 벡터 검색을 통해 Claude는 문서 및 데이터 전체에서 패턴 및 유사성을 찾을 수 있습니다. 이는 관련 문제, 유사한 거래 또는 기존 키워드 검색을 통해 명확하지 않을 수 있는 비교 가능한 상황을 찾는 데 도움이 됩니다.

Databricks 커넥터 설정

Databricks 통합은 세 가지 별도의 커넥터로 구성되며, 각각 별도의 설정이 필요합니다:

  1. 함수 서버: 계산, 비즈니스 로직 및 데이터 변환을 위한 Unity Catalog 함수에 액세스합니다.

  2. 벡터 검색 서버: 인덱싱된 문서 및 데이터 세트 전체에서 의미론적 검색을 가능하게 합니다.

  3. Genie 서버: 자연어에서 SQL 쿼리로의 변환 기능을 제공합니다.

Databricks 커넥터의 기술 세부 정보는 Databricks의 MCP 서버 문서에서 찾을 수 있습니다. Databricks 커넥터의 인증은 OAuth(Claude.ai 및 Claude Desktop의 경우) 또는 Databricks 개인 액세스 토큰(Claude Desktop만 해당)을 통해 처리됩니다.

조직 소유자로 커넥터 추가

  1. 관리자 설정 > 커넥터로 이동합니다.

  2. 아래로 스크롤하여 목록 하단의 "사용자 정의 커넥터 추가"를 클릭합니다.

  3. Databricks 워크스페이스의 통합 URL을 입력합니다.

  4. 통합의 이름을 지정합니다. 세 개의 별도 Databricks 서버가 있으므로 각각을 고유하게 명명하는 것을 고려하세요(예: "Databricks UC", "Databricks Genie", "Databricks Search")

  5. "추가"를 클릭합니다.

개별 사용자의 경우

도구 찾기 및 연결에 대해 알아보세요.

일반적인 사용 사례

사용 가능한 리소스 예시

이러한 기능이 어떻게 함께 작동하는지 설명하기 위해 다음과 같이 구성된 Databricks 리소스를 가진 사모펀드 회사를 고려하세요:

이 시나리오의 테이블

  1. portfolio_companies: 회사 세부 정보, 인수 정보, 현재 평가 및 부채 수준

  2. financial_statements: 수익, 조정된 EBITDA 및 고객 수, 이탈률 같은 운영 메트릭을 포함한 기간별 재무제표

  3. market_comparables: 평가 배수 및 성장률이 있는 부문 비교 회사

  4. due_diligence_docs: 실사 보고서, 분석 문서 및 거래 메모 저장소

이 시나리오의 Unity Catalog 함수

  1. calculate_normalized_ebitda(): 일회성 비용을 제거하고 소유자 보상을 정규화하여 보고된 EBITDA에 표준 사모펀드 조정을 적용합니다.

  2. compute_portfolio_irr(): 현금 흐름 및 보유 기간을 기반으로 내부 수익률 및 투자 자본 배수를 계산합니다.

  3. estimate_debt_capacity(): 다양한 시나리오에서 약정 준수 스트레스 테스트를 통해 최대 레버리지 용량을 모델링합니다.

이 시나리오의 벡터 검색 인덱스

  1. due_diligence_index: 모든 실사 문서, 거래 메모 및 분석 보고서 전체에서 의미론적 검색

포트폴리오 출구 준비 분석

예시 입력 프롬프트:

어떤 포트폴리오 회사가 출구 준비가 되었나요? 현재 시장 배수를 기반으로 평가 범위 및 예상 수익을 표시하세요.

이 분석을 위해 Claude는 다음 단계에서 다양한 UC 함수 및 Genie를 사용할 수 있습니다:

  1. Genie: 3년 이상 보유한 포트폴리오 회사를 식별하고 최신 재무제표를 검색합니다.

  2. UC 함수: 각 회사에 대해 calculate_normalized_ebitda()를 호출하여 PE 조정을 적용합니다.

  3. UC 함수: 각 회사의 IRR 및 MOIC를 계산하기 위해 compute_portfolio_irr()을 실행합니다.

  4. Genie: 시장 비교 회사를 쿼리하고 정규화된 EBITDA에 부문 배수를 적용하여 평가 범위를 산출합니다.

Claude는 현재 시장 배수를 기반으로 IRR, MOIC 및 평가 범위를 표시하는 출구 준비 회사의 요약을 보고할 수 있습니다.

신규 거래 평가

예시 입력 프롬프트:

TechCorp 인수를 평가 중입니다(SaaS, 매출 $45M, EBITDA $12M). 공정한 평가는 무엇이며 얼마나 많은 부채를 지원할 수 있나요? 분석에 이전 실사 기록을 포함하세요.

이 요청을 완료하기 위해 Claude는 다음 워크플로우를 따를 수 있습니다:

  1. Genie: 대상의 부문에서 유사한 규모의 회사에 대한 시장 비교 회사를 쿼리하여 평가 벤치마크를 설정합니다.

  2. UC 함수: 대상 메트릭으로 estimate_debt_capacity()를 호출하여 레버리지 시나리오를 모델링하고 약정 준수를 스트레스 테스트합니다.

  3. 벡터 검색: 관련 가치 창출 플레이북 및 선례 거래에 대한 실사 인덱스를 검색합니다.

  4. 종합: 결과를 결합하여 평가 범위, 권장 자본 구조 및 관련 선례를 생성합니다.

이상적으로 Claude는 권장 제안 가격을 인용하면서 평가 범위에 대한 보고서로 응답할 것입니다.

약정 위반 위험 평가

예시 입력 프롬프트:

포트폴리오 전체에서 EBITDA가 15-25% 감소하면 어떤 회사가 약정 위반 위험에 처하나요? 어떤 조치를 취해야 하나요?

이 작업을 위해 Claude는 다음 리소스를 사용할 수 있습니다:

  1. Genie: 부채가 있는 포트폴리오 회사를 식별하고, 레버리지가 4배 이상인 회사에 중점을 둡니다.

  2. UC 함수: 각 고레버리지 회사에 대해 calculate_normalized_ebitda()를 호출하여 기준선을 설정합니다.

  3. UC 함수: 각 회사에 대해 15%, 20%, 25% 감소 시나리오로 estimate_debt_capacity()를 실행합니다.

  4. Genie: 과거 재무제표를 쿼리하여 운전 자본 추세가 악화되는 회사를 식별합니다.

Claude는 회사 및 시나리오별로 정리된 위반 위험 분석으로 응답할 수 있습니다.

Databricks 사용 팁

  • 찾고 있는 데이터에 대해 구체적으로 설명하세요.

    • 예시: "고객 분석" 대신 "상위 20개 고객을 ...별로 표시하세요"를 시도하세요.

  • 패턴 매칭을 위해 "유사한 항목 찾기" 언어를 사용하세요.

    • 예시: "이 불만과 같은 문제를 언급하는 피드백을 찾으세요."

  • 모든 데이터 액세스 권한은 Unity Catalog 권한을 따릅니다. Claude는 사용자가 액세스할 수 있는 데이터만 액세스할 수 있습니다.

  • 사용자 정의 함수는 일관된 계산을 제공합니다. 표준화된 메트릭을 계산하기 위해 UC 함수를 추가하는 것을 고려하세요.

  • 복잡한 분석에는 여러 단계가 필요할 수 있습니다. 먼저 계획을 요청하고 Claude의 제안된 접근 방식을 검토하세요.

답변이 도움되었나요?