restructuring and WIP api and sdk changes

2025-05-09 19:32:38 +00:00 · 2024-11-16 01:48:15 -05:00 · 2024-11-16 01:48:15 -05:00 · 1a926c7be0
commit 1a926c7be0
parent 30577dc0ff
32 changed files with 930 additions and 16 deletions
--- a/core/init.py
+++ b/core/init.py
--- a/core/api.py
+++ b/core/api.py
@ -0,0 +1,274 @@
+from fastapi import FastAPI, HTTPException, Depends, Header, Request, status
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import JSONResponse
+from typing import Dict, Any, List, Optional, Annotated
+from pydantic import BaseModel, Field
+import jwt
+import os
+from datetime import datetime, UTC
+import logging
+from .vector_store.mongo_vector_store import MongoDBAtlasVectorStore
+from .embedding_model.openai_embedding_model import OpenAIEmbeddingModel
+from .parser.unstructured_parser import UnstructuredAPIParser
+from .planner.simple_planner import SimpleRAGPlanner
+from .document import Document, DocumentChunk
+
+# Configure logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+
+# Initialize FastAPI app
+app = FastAPI(
+    title="DataBridge API",
+    description="REST API for DataBridge document ingestion and querying",
+    version="1.0.0"
+)
+
+# Add CORS middleware
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+
+
+class DataBridgeException(HTTPException):
+    def __init__(self, detail: str, status_code: int = 400):
+        super().__init__(status_code=status_code, detail=detail)
+
+
+class AuthenticationError(DataBridgeException):
+    def __init__(self, detail: str = "Authentication failed"):
+        super().__init__(detail=detail, status_code=status.HTTP_401_UNAUTHORIZED)
+
+
+class ServiceConfig:
+    """Service-wide configuration and component management"""
+    def __init__(self):
+        self.jwt_secret = os.getenv("JWT_SECRET_KEY")
+        if not self.jwt_secret:
+            raise ValueError("JWT_SECRET_KEY environment variable not set")
+
+        # Required environment variables
+        required_vars = {
+            "MONGODB_URI": "MongoDB connection string",
+            "OPENAI_API_KEY": "OpenAI API key",
+            "UNSTRUCTURED_API_KEY": "Unstructured API key"
+        }
+
+        missing = [f"{var} ({desc})" for var, desc in required_vars.items() if not os.getenv(var)]
+        if missing:
+            raise ValueError(f"Missing required environment variables: {', '.join(missing)}")
+
+        # Initialize core components
+        self._init_components()
+
+    def _init_components(self):
+        """Initialize service components"""
+        try:
+            self.vector_store = MongoDBAtlasVectorStore(
+                connection_string=os.getenv("MONGODB_URI"),
+                database_name=os.getenv("DB_NAME", "databridge"),
+                collection_name=os.getenv("COLLECTION_NAME", "embeddings")
+            )
+
+            self.embedding_model = OpenAIEmbeddingModel(
+                api_key=os.getenv("OPENAI_API_KEY"),
+                model_name=os.getenv("EMBEDDING_MODEL", "text-embedding-3-small")
+            )
+
+            self.parser = UnstructuredAPIParser(
+                api_key=os.getenv("UNSTRUCTURED_API_KEY"),
+                chunk_size=int(os.getenv("CHUNK_SIZE", "1000")),
+                chunk_overlap=int(os.getenv("CHUNK_OVERLAP", "200"))
+            )
+
+            self.planner = SimpleRAGPlanner(
+                default_k=int(os.getenv("DEFAULT_K", "4"))
+            )
+        except Exception as e:
+            raise ValueError(f"Failed to initialize components: {str(e)}")
+
+    async def verify_token(self, token: str, owner_id: str) -> bool:
+        """Verify JWT token and owner_id"""
+        try:
+            payload = jwt.decode(token, self.jwt_secret, algorithms=["HS256"])
+            if payload.get("owner_id") != owner_id:
+                raise AuthenticationError("Owner ID mismatch")
+            if datetime.fromtimestamp(payload["exp"], UTC) < datetime.now(UTC):
+                raise AuthenticationError("Token has expired")
+            return True
+        except jwt.InvalidTokenError:
+            raise AuthenticationError("Invalid token")
+        except Exception as e:
+            raise AuthenticationError(f"Authentication failed: {str(e)}")
+
+
+# Initialize service
+service = ServiceConfig()
+
+
+# Request/Response Models
+class IngestRequest(BaseModel):
+    content: str = Field(..., description="Document content (text or base64)")
+    metadata: Dict[str, Any] = Field(default_factory=dict, description="Document metadata")
+
+
+class QueryRequest(BaseModel):
+    query: str = Field(..., description="Query string")
+    k: Optional[int] = Field(default=4, description="Number of results to return")
+    filters: Optional[Dict[str, Any]] = Field(default=None, 
+                                            description="Optional metadata filters")
+
+
+class IngestResponse(BaseModel):
+    document_id: str = Field(..., description="Ingested document ID")
+    message: str = Field(default="Document ingested successfully")
+
+
+class QueryResponse(BaseModel):
+    results: List[Dict[str, Any]] = Field(..., description="Query results")
+    total_results: int = Field(..., description="Total number of results")
+
+
+# Authentication dependency
+async def verify_auth(
+    owner_id: Annotated[str, Header(alias="X-Owner-ID")],
+    auth_token: Annotated[str, Header(alias="X-Auth-Token")]
+) -> str:
+    """Verify authentication headers"""
+    await service.verify_token(auth_token, owner_id)
+    return owner_id
+
+
+# Error handler middleware
+@app.middleware("http")
+async def error_handler(request: Request, call_next):
+    try:
+        return await call_next(request)
+    except DataBridgeException as e:
+        return JSONResponse(
+            status_code=e.status_code,
+            content={"error": e.detail}
+        )
+    except Exception as e:
+        logger.exception("Unexpected error")
+        return JSONResponse(
+            status_code=status.HTTP_500_INTERNAL_SERVER_ERROR,
+            content={"error": "Internal server error"}
+        )
+
+
+# API Routes
+@app.post("/ingest", response_model=IngestResponse)
+async def ingest_document(
+    request: IngestRequest,
+    owner_id: str = Depends(verify_auth)
+) -> IngestResponse:
+    """
+    Ingest a document into DataBridge.
+    All configuration and credentials are handled server-side.
+    """
+    logger.info(f"Ingesting document for owner {owner_id}")
+
+    # Add owner_id to metadata
+    request.metadata['owner_id'] = owner_id
+
+    # Create document
+    doc = Document(request.content, request.metadata, owner_id)
+
+    # Parse into chunks
+    chunk_texts = service.parser.parse(request.content, request.metadata)
+    # Create embeddings and chunks
+    chunks = []
+    for chunk_text in chunk_texts:
+        embedding = await service.embedding_model.embed(chunk_text)
+        chunk = DocumentChunk(chunk_text, embedding, doc.id)
+        chunk.metadata = {
+            'owner_id': owner_id,
+            **request.metadata
+        }
+        chunks.append(chunk)
+
+    # Store in vector store
+    if not service.vector_store.store_embeddings(chunks):
+        raise DataBridgeException(
+            "Failed to store embeddings",
+            status_code=status.HTTP_500_INTERNAL_SERVER_ERROR
+        )
+
+    return IngestResponse(document_id=doc.id)
+
+
+@app.post("/query", response_model=QueryResponse)
+async def query_documents(
+    request: QueryRequest,
+    owner_id: str = Depends(verify_auth)
+) -> QueryResponse:
+    """
+    Query documents in DataBridge.
+    All configuration and credentials are handled server-side.
+    """
+    logger.info(f"Processing query for owner {owner_id}")
+    print("ADILOG ")
+    # Create plan
+    plan = service.planner.plan_retrieval(request.query, k=request.k)
+
+    # Get query embedding
+    query_embedding = await service.embedding_model.embed(request.query)
+
+    # Query vector store
+    chunks = service.vector_store.query_similar(
+        query_embedding,
+        k=plan["k"],
+        owner_id=owner_id,
+        filters=request.filters
+    )
+
+    # Format results
+    results = [
+        {
+            "content": chunk.content,
+            "doc_id": chunk.doc_id,
+            "chunk_id": chunk.id,
+            "score": getattr(chunk, "score", None),
+            "metadata": {k:v for k,v in chunk.metadata.items() if k != 'owner_id'}
+        }
+        for chunk in chunks
+    ]
+
+    return QueryResponse(
+        results=results,
+        total_results=len(results)
+    )
+
+
+# Health check endpoint
+@app.get("/health")
+async def health_check():
+    """Check service health"""
+    try:
+        # Verify MongoDB connection
+        service.vector_store.collection.find_one({})
+        return {"status": "healthy"}
+    except Exception as e:
+        raise DataBridgeException(
+            f"Service unhealthy: {str(e)}", 
+            status_code=status.HTTP_503_SERVICE_UNAVAILABLE
+        )
+
+
+# Startup and shutdown events
+@app.on_event("startup")
+async def startup_event():
+    """Verify all connections on startup"""
+    logger.info("Starting DataBridge service")
+    await health_check()
+
+
+@app.on_event("shutdown")
+async def shutdown_event():
+    """Cleanup on shutdown"""
+    logger.info("Shutting down DataBridge service")
--- a/core/auth.py
+++ b/core/auth.py
@ -0,0 +1,35 @@
+from fastapi import Request, HTTPException
+from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
+import jwt
+
+security = HTTPBearer()
+
+
+class DataBridgeAuth:
+    def __init__(self, secret_key: str):
+        self.secret_key = secret_key
+
+    async def __call__(self, request: Request, credentials: HTTPAuthorizationCredentials = Depends(security)) -> str:
+        try:
+            token = credentials.credentials
+            payload = jwt.decode(token, self.secret_key, algorithms=["HS256"])
+            
+            # Validate owner_id from token matches header
+            owner_id = request.headers.get("X-Owner-ID")
+            if owner_id != payload.get("owner_id"):
+                raise HTTPException(
+                    status_code=401,
+                    detail="Owner ID mismatch"
+                )
+            
+            return owner_id
+        except jwt.ExpiredSignatureError:
+            raise HTTPException(
+                status_code=401,
+                detail="Token has expired"
+            )
+        except jwt.InvalidTokenError:
+            raise HTTPException(
+                status_code=401,
+                detail="Invalid token"
+            )
--- a/core/databridge.py
+++ b/core/databridge.py
@ -1,10 +1,10 @@
 from typing import Dict, Any, List
-from databridge_uri import DataBridgeURI
-from document import Document, DocumentChunk
-from mongo_vector_store import MongoDBAtlasVectorStore
-from openai_embedding_model import OpenAIEmbeddingModel
-from unstructured_parser import UnstructuredAPIParser
-from simple_planner import SimpleRAGPlanner
+from .databridge_uri import DataBridgeURI
+from .document import Document, DocumentChunk
+from .vector_store.mongo_vector_store import MongoDBAtlasVectorStore
+from .embedding_model.openai_embedding_model import OpenAIEmbeddingModel
+from .parser.unstructured_parser import UnstructuredAPIParser
+from .planner.simple_planner import SimpleRAGPlanner


 class DataBridge:
--- a/core/databridge_uri.py
+++ b/core/databridge_uri.py
--- a/core/document.py
+++ b/core/document.py
--- a/core/embedding_model/init.py
+++ b/core/embedding_model/init.py
--- a/core/embedding_model/base_embedding_model.py
+++ b/core/embedding_model/base_embedding_model.py
--- a/core/embedding_model/openai_embedding_model.py
+++ b/core/embedding_model/openai_embedding_model.py
@ -1,6 +1,6 @@
 from typing import List, Union
 import openai
-from base_embedding_model import BaseEmbeddingModel
+from .base_embedding_model import BaseEmbeddingModel


 class OpenAIEmbeddingModel(BaseEmbeddingModel):
--- a/core/main.py
+++ b/core/main.py
@ -0,0 +1,27 @@
+from fastapi import FastAPI, Depends
+from .api import app as api_app
+from .auth import DataBridgeAuth
+import os
+
+app = FastAPI()
+auth = DataBridgeAuth(secret_key=os.getenv("JWT_SECRET_KEY", "your-secret-key"))
+
+# Mount the API with authentication
+app.mount("/api/v1", api_app)
+
+# Add authentication middleware to all routes
+@app.middleware("http")
+async def authenticate_requests(request: Request, call_next):
+    if request.url.path.startswith("/api/v1"):
+        try:
+            await auth(request)
+        except HTTPException as e:
+            return JSONResponse(
+                status_code=e.status_code,
+                content={"detail": e.detail}
+            )
+    return await call_next(request)
+
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=8000)
--- a/core/parser/init.py
+++ b/core/parser/init.py
--- a/core/parser/base_parser.py
+++ b/core/parser/base_parser.py
--- a/core/parser/unstructured_parser.py
+++ b/core/parser/unstructured_parser.py
@ -1,5 +1,5 @@
 from typing import Dict, Any, List
-from base_parser import BaseParser
+from .base_parser import BaseParser
 from unstructured.partition.auto import partition
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 import os
--- a/core/planner/init.py
+++ b/core/planner/init.py
--- a/core/planner/base_planner.py
+++ b/core/planner/base_planner.py
--- a/core/planner/simple_planner.py
+++ b/core/planner/simple_planner.py
@ -1,5 +1,5 @@
 from typing import Dict, Any
-from base_planner import BasePlanner
+from .base_planner import BasePlanner


 class SimpleRAGPlanner(BasePlanner):
--- a/core/vector_store/init.py
+++ b/core/vector_store/init.py
--- a/core/vector_store/base_vector_store.py
+++ b/core/vector_store/base_vector_store.py
@ -1,6 +1,6 @@
 from abc import ABC, abstractmethod
 from typing import List
-from document import DocumentChunk
+from core.document import DocumentChunk


 class BaseVectorStore(ABC):
--- a/core/vector_store/mongo_vector_store.py
+++ b/core/vector_store/mongo_vector_store.py
@ -1,7 +1,7 @@
 from typing import List, Dict, Any
 from pymongo import MongoClient
-from base_vector_store import BaseVectorStore
-from document import DocumentChunk
+from .base_vector_store import BaseVectorStore
+from core.document import DocumentChunk


 class MongoDBAtlasVectorStore(BaseVectorStore):
@ -45,18 +45,21 @@ class MongoDBAtlasVectorStore(BaseVectorStore):
            documents = []
            for chunk in chunks:
                doc = {
-                    "_id": chunk.id,  # Use chunk.id as MongoDB _id
+                    "_id": chunk.id,
                    "text": chunk.content,
                    "embedding": chunk.embedding,
                    "doc_id": chunk.doc_id,
                    "owner_id": chunk.metadata.get("owner_id"),
                    "metadata": chunk.metadata
                }
+                print("BHAU")
+                print(doc)
                documents.append(doc)

            if documents:
                # Use ordered=False to continue even if some inserts fail
                result = self.collection.insert_many(documents, ordered=False)
+                print(result)
                return len(result.inserted_ids) > 0
            return True

@ -89,8 +92,11 @@ class MongoDBAtlasVectorStore(BaseVectorStore):
                    }
                }
            ]
+            # print("ADILOG: " + str(pipeline))

            results = list(self.collection.aggregate(pipeline))
+            print("ADILOG")
+            print(results)
            chunks = []

            for result in results:
--- a/examples/init.py
+++ b/examples/init.py
--- a/examples/sample.pdf
+++ b/examples/sample.pdf
--- a/examples/simple_example.py
+++ b/examples/simple_example.py
@ -1,6 +1,8 @@
-from datetime import datetime, timedelta, UTC  # Note: using UTC for timezone awareness
+import sys; sys.path.append('.')
+
+from datetime import datetime, timedelta, UTC
 import base64
-from databridge import DataBridge
+from core.databridge import DataBridge
 import jwt
 import os
 from dotenv import load_dotenv
@ -47,7 +49,7 @@ async def main():
    bridge = DataBridge(create_databridge_uri())

    # Example: Ingest a PDF document
-    with open("sample.pdf", "rb") as f:
+    with open("examples/sample.pdf", "rb") as f:
        pdf_content = base64.b64encode(f.read()).decode()

    await bridge.ingest_document(
--- a/printer.py
+++ b/printer.py
@ -0,0 +1,89 @@
+import os
+from pathlib import Path
+
+def should_ignore_directory(dirname):
+    """
+    Check if directory should be ignored.
+    
+    Args:
+        dirname (str): Name of the directory
+    
+    Returns:
+        bool: True if directory should be ignored, False otherwise
+    """
+    # List of directory names to ignore
+    ignore_dirs = {
+        'venv',
+        'env',
+        '.venv',
+        'virtualenv',
+        '__pycache__',
+        '.pytest_cache',
+        '.mypy_cache',
+        '.tox'
+    }
+    return dirname in ignore_dirs
+
+def aggregate_python_files(root_dir, output_file, script_name):
+    """
+    Recursively search through directories starting from root_dir,
+    find all Python files, and write their contents to a single output file.
+    Ignores virtual environment directories, __init__.py files and the script itself.
+    
+    Args:
+        root_dir (str): The root directory to start the search from
+        output_file (str): The name of the output file to create
+        script_name (str): Name of this script to ignore
+    """
+    # Convert root_dir to absolute path
+    root_dir = os.path.abspath(root_dir)
+    
+    # Use with statement to properly handle file opening/closing
+    with open(output_file, 'w', encoding='utf-8') as outfile:
+        # Walk through all directories
+        for dirpath, dirnames, filenames in os.walk(root_dir, topdown=True):
+            # Modify dirnames in place to skip ignored directories
+            dirnames[:] = [d for d in dirnames if not should_ignore_directory(d)]
+            
+            # Filter for Python files, excluding __init__.py and this script
+            python_files = [
+                f for f in filenames 
+                if f.endswith('.py') 
+                and f != '__init__.py'
+                and f != script_name
+                and f != output_file
+            ]
+            
+            for py_file in python_files:
+                # Get the full file path
+                file_path = os.path.join(dirpath, py_file)
+                # Get relative path from root_dir
+                rel_path = os.path.relpath(file_path, root_dir)
+                
+                try:
+                    # Read the content of the Python file
+                    with open(file_path, 'r', encoding='utf-8') as infile:
+                        content = infile.read()
+                    
+                    # Write the file path and contents to the output file
+                    outfile.write(f"{rel_path}\n")
+                    outfile.write(content)
+                    outfile.write("\n\n" + "="*80 + "\n\n")  # Separator between files
+                    
+                except Exception as e:
+                    outfile.write(f"Error reading {rel_path}: {str(e)}\n\n")
+
+if __name__ == "__main__":
+    # Get the name of this script
+    script_name = os.path.basename(__file__)
+    
+    # Get current directory as default root
+    current_dir = os.getcwd()
+    
+    # Output file name
+    output_file = "python_files_contents.txt"
+    
+    print(f"Starting to process Python files from: {current_dir}")
+    print(f"Ignoring {script_name}, all __init__.py files, and virtual environment directories")
+    aggregate_python_files(current_dir, output_file, script_name)
+    print(f"Finished! Results written to: {output_file}")
--- a/sdks/python/README.md
+++ b/sdks/python/README.md
--- a/sdks/python/databridge/init.py
+++ b/sdks/python/databridge/init.py
@ -0,0 +1,5 @@
+from .client import DataBridge
+from .exceptions import DataBridgeError
+from .types import ContentType
+
+__all__ = ['DataBridge', 'DataBridgeError', 'ContentType']
--- a/sdks/python/databridge/client.py
+++ b/sdks/python/databridge/client.py
@ -0,0 +1,198 @@
+from typing import Dict, Any, List, Optional, Union
+import httpx
+from urllib.parse import urlparse
+import jwt
+from datetime import datetime, UTC
+import asyncio
+from dataclasses import dataclass
+from .exceptions import AuthenticationError
+from .types import ContentType
+import logging
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class QueryResult:
+    """Structured query result"""
+    content: str
+    doc_id: str
+    chunk_id: str
+    score: Optional[float]
+    metadata: Dict[str, Any]
+
+
+class DataBridge:
+    """
+    DataBridge client for document ingestion and querying.
+
+    Usage:
+        db = DataBridge("databridge://owner123:token@databridge.local")
+        doc_id = await db.ingest_document("content", {"title": "My Doc"})
+        results = await db.query("What is...")
+    """
+    def __init__(
+        self,
+        uri: str,
+        base_url: str = "https://api.databridge.ai/v1",
+        timeout: int = 30,
+        max_retries: int = 3
+    ):
+        self._base_url = base_url.rstrip('/')
+        self._timeout = timeout
+        self._max_retries = max_retries
+        self._client = httpx.AsyncClient(timeout=timeout)
+        self._setup_auth(uri)
+
+    def _setup_auth(self, uri: str) -> None:
+        """Setup authentication from URI"""
+        try:
+            parsed = urlparse(uri)
+            if not parsed.netloc:
+                raise ValueError("Invalid URI format")
+
+            auth_parts = parsed.netloc.split('@')[0].split(':')
+            if len(auth_parts) != 2:
+                raise ValueError("URI must include owner_id and auth_token")
+
+            self._owner_id = auth_parts[0]
+            self._auth_token = auth_parts[1]
+
+            # Validate token structure (not signature)
+            try:
+                decoded = jwt.decode(self._auth_token, options={"verify_signature": False})
+                self._token_expiry = datetime.fromtimestamp(decoded['exp'], UTC)
+            except jwt.InvalidTokenError as e:
+                raise ValueError(f"Invalid auth token format: {str(e)}")
+
+        except Exception as e:
+            raise AuthenticationError(f"Failed to setup authentication: {str(e)}")
+
+    async def _make_request(
+        self,
+        method: str,
+        endpoint: str,
+        data: Dict[str, Any] = None,
+        retry_count: int = 0
+    ) -> Dict[str, Any]:
+        """Make authenticated HTTP request with retries"""
+        # if datetime.now(UTC) > self._token_expiry:
+        #     raise AuthenticationError("Authentication token has expired")
+        headers = {
+            "X-Owner-ID": self._owner_id,
+            "X-Auth-Token": self._auth_token,
+            "Content-Type": "application/json"
+        }
+
+        try:
+            response = await self._client.request(
+                method,
+                f"http://localhost:8000/{endpoint.lstrip('/')}",
+                json=data,
+                headers=headers
+            )
+
+            response.raise_for_status()
+            return response.json()
+
+        except httpx.HTTPStatusError as e:
+            if e.response.status_code == 401:
+                raise AuthenticationError("Authentication failed: " + str(e))
+            elif e.response.status_code >= 500 and retry_count < self._max_retries:
+                await asyncio.sleep(2 ** retry_count)  # Exponential backoff
+                return await self._make_request(method, endpoint, data, retry_count + 1)
+            else:
+                raise ConnectionError(f"Request failed: {e.response.text}")
+        except Exception as e:
+            raise ConnectionError(f"Request failed: {str(e)}")
+
+    async def ingest_document(
+        self,
+        content: Union[str, bytes],
+        metadata: Optional[Dict[str, Any]] = None,
+        content_type: ContentType = ContentType.TEXT
+    ) -> str:
+        """
+        Ingest a document into DataBridge.
+        
+        Args:
+            content: Document content (string or bytes)
+            metadata: Optional document metadata
+            content_type: Type of the content being ingested
+
+        Returns:
+            Document ID of the ingested document
+        """
+        if isinstance(content, bytes):
+            import base64
+            content = base64.b64encode(content).decode()
+            metadata = metadata or {}
+            metadata["is_base64"] = True
+
+        metadata = metadata or {}
+        metadata["content_type"] = content_type
+
+        response = await self._make_request(
+            "POST",
+            "ingest",
+            {
+                "content": content,
+                "metadata": metadata
+            }
+        )
+
+        return response["document_id"]
+
+    async def query(
+        self,
+        query: str,
+        k: int = 4,
+        filters: Optional[Dict[str, Any]] = None
+    ) -> List[QueryResult]:
+        """
+        Query documents in DataBridge.
+        
+        Args:
+            query: Query string
+            k: Number of results to return
+            filters: Optional metadata filters
+
+        Returns:
+            List of QueryResult objects
+        """
+        response = await self._make_request(
+            "POST",
+            "query",
+            {
+                "query": query,
+                "k": k,
+                "filters": filters
+            }
+        )
+
+        return [
+            QueryResult(
+                content=result["content"],
+                doc_id=result["doc_id"],
+                chunk_id=result["chunk_id"],
+                score=result.get("score"),
+                metadata=result.get("metadata", {})
+            )
+            for result in response["results"]
+        ]
+
+    async def close(self):
+        """Close the HTTP client"""
+        await self._client.aclose()
+
+    async def __aenter__(self):
+        """Async context manager entry"""
+        return self
+
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        """Async context manager exit"""
+        await self.close()
+
+    def __repr__(self) -> str:
+        """Safe string representation"""
+        return f"DataBridge(owner_id='{self._owner_id}')"
--- a/sdks/python/databridge/exceptions.py
+++ b/sdks/python/databridge/exceptions.py
@ -0,0 +1,13 @@
+class DataBridgeError(Exception):
+    """Base exception for DataBridge SDK"""
+    pass
+
+
+class AuthenticationError(DataBridgeError):
+    """Authentication related errors"""
+    pass
+
+
+class ConnectionError(DataBridgeError):
+    """Connection related errors"""
+    pass
--- a/sdks/python/databridge/types.py
+++ b/sdks/python/databridge/types.py
@ -0,0 +1,9 @@
+from enum import Enum
+
+
+class ContentType(str, Enum):
+    """Supported content types"""
+    TEXT = "text/plain"
+    PDF = "application/pdf"
+    DOCX = "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
+    HTML = "text/html"
--- a/sdks/python/examples/basic_usage.py
+++ b/sdks/python/examples/basic_usage.py
@ -0,0 +1,197 @@
+import asyncio
+import os
+import sys
+from pathlib import Path
+from datetime import UTC, datetime, timedelta
+
+from dotenv import load_dotenv
+import jwt
+
+# we can't pip install, this basically acts like pip install.
+sdk_root = Path(__file__).parent.parent
+sys.path.append(str(sdk_root))
+
+from databridge import DataBridge, ContentType, DataBridgeError
+
+
+def create_test_uri():
+    """Create a test URI with a valid JWT token"""
+    token = jwt.encode(
+        {
+            'owner_id': 'test_user_123',
+            'exp': datetime.now(UTC) + timedelta(days=30)
+        },
+        "your-secret-key-for-signing-tokens",
+        algorithm='HS256'
+    )
+    return f"databridge://test_user_123:{token}@localhost:8000"
+
+
+async def example_text():
+    """Example of ingesting and querying text documents"""
+    print("\n=== Text Document Example ===")
+    load_dotenv()
+    uri = os.getenv("DATABRIDGE_URI")
+    if not uri:
+        raise ValueError("Please set DATABRIDGE_URI environment variable")
+
+    db = DataBridge(create_test_uri())
+    
+    try:
+        # Ingest a simple text document
+        content = """
+        Machine learning (ML) is a type of artificial intelligence (AI) that allows 
+        software applications to become more accurate at predicting outcomes without 
+        being explicitly programmed to do so. Machine learning algorithms use historical 
+        data as input to predict new output values.
+        """
+        
+        doc_id = await db.ingest_document(
+            content=content,
+            metadata={
+                "title": "ML Introduction",
+                "category": "tech",
+                "tags": ["ML", "AI", "technology"]
+            }
+        )
+        print(f"✓ Document ingested successfully (ID: {doc_id})")
+
+        # Query the document
+        results = await db.query(
+            query="What is machine learning?",
+            k=1  # Get top result
+        )
+        
+        print("\nQuery Results:")
+        for result in results:
+            print(f"Content: {result.content.strip()}")
+            print(f"Score: {result.score:.2f}")
+            print(f"Metadata: {result.metadata}")
+
+    except DataBridgeError as e:
+        print(f"× Error: {str(e)}")
+    
+    finally:
+        await db.close()
+
+
+async def example_pdf():
+    """Example of ingesting and querying PDF documents"""
+    print("\n=== PDF Document Example ===")
+    
+    uri = os.getenv("DATABRIDGE_URI")
+    if not uri:
+        raise ValueError("Please set DATABRIDGE_URI environment variable")
+
+    # Path to a sample PDF in the examples directory
+    pdf_path = Path(__file__).parent / "sample.pdf"
+    if not pdf_path.exists():
+        print("× sample.pdf not found in examples directory")
+        return
+
+    db = DataBridge(uri)
+    
+    try:
+        # Read and ingest PDF
+        with open(pdf_path, "rb") as f:
+            pdf_content = f.read()
+
+        doc_id = await db.ingest_document(
+            content=pdf_content,
+            metadata={
+                "title": "Sample Document",
+                "source": "examples",
+                "file_type": "pdf"
+            },
+            content_type=ContentType.PDF
+        )
+        print(f"✓ PDF ingested successfully (ID: {doc_id})")
+
+        # Query the PDF content
+        results = await db.query(
+            query="What is the main topic of this document?",
+            k=2,  # Get top 2 results
+            filters={"file_type": "pdf"}  # Only search PDF documents
+        )
+        
+        print("\nQuery Results:")
+        for i, result in enumerate(results, 1):
+            print(f"\nResult {i}:")
+            print(f"Content: {result.content[:200]}...")
+            print(f"Score: {result.score:.2f}")
+            print(f"Document ID: {result.doc_id}")
+
+    except DataBridgeError as e:
+        print(f"× Error: {str(e)}")
+    
+    finally:
+        await db.close()
+
+
+async def example_batch():
+    """Example of batch operations"""
+    print("\n=== Batch Operations Example ===")
+    
+    uri = os.getenv("DATABRIDGE_URI")
+    if not uri:
+        raise ValueError("Please set DATABRIDGE_URI environment variable")
+
+    db = DataBridge(uri)
+    
+    try:
+        # Prepare multiple documents
+        documents = [
+            {
+                "content": "Python is a programming language.",
+                "metadata": {"category": "programming", "level": "basic"}
+            },
+            {
+                "content": "JavaScript runs in the browser.",
+                "metadata": {"category": "programming", "level": "basic"}
+            },
+            {
+                "content": "Docker containers package applications.",
+                "metadata": {"category": "devops", "level": "intermediate"}
+            }
+        ]
+
+        # Ingest multiple documents
+        doc_ids = []
+        for doc in documents:
+            doc_id = await db.ingest_document(
+                content=doc["content"],
+                metadata=doc["metadata"]
+            )
+            doc_ids.append(doc_id)
+        print(f"✓ Ingested {len(doc_ids)} documents")
+
+        # Query with filters
+        results = await db.query(
+            query="What is Python?",
+            filters={"category": "programming"}
+        )
+        
+        print("\nQuery Results (Programming category only):")
+        for result in results:
+            print(f"\nContent: {result.content}")
+            print(f"Category: {result.metadata['category']}")
+            print(f"Level: {result.metadata['level']}")
+
+    except DataBridgeError as e:
+        print(f"× Error: {str(e)}")
+    
+    finally:
+        await db.close()
+
+
+async def main():
+    """Run all examples"""
+    try:
+        await example_text()
+        await example_pdf()
+        await example_batch()
+    except Exception as e:
+        print(f"× Main error: {str(e)}")
+
+if __name__ == "__main__":
+    asyncio.run(main())
--- a/sdks/python/pyproject.toml
+++ b/sdks/python/pyproject.toml
@ -0,0 +1,17 @@
+[build-system]
+requires = ["hatchling"]
+build-backend = "hatchling.build"
+
+[project]
+name = "databridge-client"
+version = "0.1.0"
+description = "Python client for DataBridge RAG service"
+readme = "README.md"
+requires-python = ">=3.8"
+dependencies = [
+    "httpx>=0.24.0",
+    "pyjwt>=2.0.0"
+]
+
+[project.optional-dependencies]
+dev = ["pytest", "pytest-asyncio", "black", "isort"]
--- a/sdks/python/setup.py
+++ b/sdks/python/setup.py
@ -0,0 +1,12 @@
+from setuptools import setup, find_packages
+
+setup(
+    name="databridge",
+    version="0.1.0",
+    packages=find_packages(),
+    install_requires=[
+        "httpx",
+        "pyjwt",
+    ],
+    python_requires=">=3.7",
+)
--- a/start_server.py
+++ b/start_server.py
@ -0,0 +1,30 @@
+import uvicorn
+import os
+from dotenv import load_dotenv
+
+def main():
+    # Load environment variables from .env file
+    load_dotenv()
+
+    # Verify required environment variables
+    required_vars = [
+        "MONGODB_URI",
+        "OPENAI_API_KEY",
+        "UNSTRUCTURED_API_KEY",
+        "JWT_SECRET_KEY"
+    ]
+    
+    missing = [var for var in required_vars if not os.getenv(var)]
+    if missing:
+        raise ValueError(f"Missing required environment variables: {', '.join(missing)}")
+
+    # Start server
+    uvicorn.run(
+        "core.api:app",
+        host="0.0.0.0",  # Listen on all available interfaces
+        port=8000,
+        reload=True  # Enable auto-reload during development
+    )
+
+if __name__ == "__main__":
+    main()