Data Connectors

Data Connectors establish secure connections between the platform and your document storage. Once connected, the platform can discover documents, read content for metadata extraction, and write enriched metadata back to the source.

Supported Data Connectors

Amazon S3

Connect to AWS S3 buckets for scalable cloud storage.

SharePoint

Integrate with Microsoft 365 document libraries.

PostgreSQL

Connect to PostgreSQL databases with pgvector support.

Qdrant

Vector database integration for semantic search.

Configuration Details

Source Type	Description	Key Configuration	Ideal Use Case
Amazon S3	AWS cloud object storage	Bucket name, Access Key, Secret Key	Large-scale document archives, cloud-native workflows
SharePoint	Microsoft 365 document management	Client ID, Client Secret, Tenant ID, Site Name	Enterprise document libraries, Office 365 environments
PostgreSQL	Relational database with pgvector extension	Host URL, Database name, User credentials, Port	Structured + unstructured hybrid data, existing database workflows
Qdrant	Purpose-built vector database for AI	API Key, Collection name, URL	Semantic search applications, RAG pipelines

Key Features

Multiple Profiles

Create and manage multiple Data Connector connections

Connection Testing

Validate credentials before saving

Active Profile Selection

Switch between Data Connectors with one click

Schema Configuration

Customize field mappings (filename key, text key, tags key)

How Data Connectors Work

Create a Connector

Select your storage type and provide the required credentials.

Test the Connection

Validate that the platform can access your documents before saving.

Configure Schema Mapping

Map your data fields (filename, text content, tags) to the platform’s expected format.

Start Processing

Your documents are now available for metadata extraction.

Python SDK

Create Connector
List Connectors
Ingest Data
Delete Connector

from unstructured import UnstructuredClient

client = UnstructuredClient(
    username="your-username",
    password="your-password",
)

# Create an S3 connector
connector = client.data_source.create(
    connector_name="my-s3-bucket",
    connector_body={
        "vector_db_type": "s3",
        "bucket_name": "my-documents",
        "aws_access_key_id": "YOUR_ACCESS_KEY",
        "aws_secret_access_key": "YOUR_SECRET_KEY",
        "region": "us-east-1",
    },
)
print(f"Created connector: {connector.profile_id}")

# List all connectors
connectors = client.data_source.list()
for c in connectors.connectors:
    print(f"{c.connector_name}: {c.vector_db_type}")

# Ingest documents from a connector
result = client.ocr.ingest(
    connector_name="my-s3-bucket",
    prefix="documents/",  # Optional: specific folder
)
print(f"Ingested {result.document_count} documents")

# Delete a connector
client.data_source.delete(connector_name="my-s3-bucket")
print("Connector deleted")

API Reference

Create Connector

Create a new data connector

Update Connector

Update an existing connector configuration

List Connectors

List all your data connectors

Delete Connector

Remove a data connector

Ingest Data

Ingest documents from a connector

List Ingested Data

View ingested document metadata

Getting Started

Core Concepts

Cookbooks

Supported Data Connectors

Amazon S3

SharePoint

PostgreSQL

Qdrant

Configuration Details

Key Features

Multiple Profiles

Connection Testing

Active Profile Selection

Schema Configuration

How Data Connectors Work

Python SDK

API Reference

Create Connector

Update Connector

List Connectors

Delete Connector

Ingest Data

List Ingested Data

Getting Started

Core Concepts

Cookbooks

​Supported Data Connectors

Amazon S3

SharePoint

PostgreSQL

Qdrant

​Configuration Details

​Key Features

Multiple Profiles

Connection Testing

Active Profile Selection

Schema Configuration

​How Data Connectors Work

​Python SDK

​API Reference

Create Connector

Update Connector

List Connectors

Delete Connector

Ingest Data

List Ingested Data

Supported Data Connectors

Configuration Details

Key Features

How Data Connectors Work

Python SDK

API Reference