DataStore: API chDB, совместимый с pandas и оптимизированный для SQL

DataStore — это API chDB, совместимый с pandas, который сочетает привычный интерфейс pandas DataFrame с мощью оптимизации SQL‑запросов и позволяет писать код в стиле pandas, получая производительность ClickHouse.

Ключевые возможности

Совместимость с pandas: 209 методов pandas DataFrame, 56 методов .str, более 42 методов .dt
Оптимизация SQL: операции автоматически компилируются в оптимизированные SQL-запросы
Ленивые вычисления: выполнение операций откладывается до момента, когда требуются результаты
Более 630 методов API: обширный API для работы с данными
Расширения ClickHouse: дополнительные аксессоры (.arr, .json, .url, .ip, .geo), недоступные в pandas

Архитектура

DataStore использует отложенные вычисления с двухдвижковой архитектурой выполнения:

Отложенная цепочка операций: операции записываются, но не выполняются немедленно
Интеллектуальный выбор движка: QueryPlanner направляет каждый сегмент в оптимальный движок (chDB для SQL, Pandas для сложных операций)
Промежуточное кэширование: результаты кэшируются на каждом шаге для быстрого итеративного исследования данных

Подробности см. в разделе Модель выполнения.

Миграция из Pandas одной строкой

# Before (pandas)
import pandas as pd
df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

# After (DataStore) - just change the import!
from chdb import datastore as pd
df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

Ваш существующий код pandas работает без изменений, но теперь выполняется поверх движка ClickHouse.

Сравнение производительности

DataStore обеспечивает значительный прирост производительности по сравнению с pandas, особенно для агрегаций и сложных пайплайнов:

Операция	Pandas	DataStore	Ускорение
GroupBy count	347ms	17ms	19.93x
Complex pipeline	2,047ms	380ms	5.39x
Filter+Sort+Head	1,537ms	350ms	4.40x
GroupBy agg	406ms	141ms	2.88x

Бенчмарк на 10M строк. Подробности см. в скрипте бенчмарка и руководстве по производительности.

Когда использовать DataStore

Используйте DataStore, когда:

Работаете с большими наборами данных (миллионы строк)
Выполняете агрегирование и операции groupby
Выполняете запросы к данным из файлов, баз данных или облачных хранилищ
Строите сложные конвейеры обработки данных
Вам нужен API pandas с более высокой производительностью

Используйте raw SQL API, когда:

Вы предпочитаете писать SQL напрямую
Вам нужен точный контроль над выполнением запроса
Работаете с функциями ClickHouse, которые недоступны через API pandas

Сравнение возможностей

Возможность	Pandas	Polars	DuckDB	DataStore
Совместимость с API Pandas	-	Частичная	Нет	Полная
Отложенные вычисления	Нет	Да	Да	Да
Поддержка SQL-запросов	Нет	Да	Да	Да
Функции ClickHouse	Нет	Нет	Нет	Да
Методы доступа к строкам/DateTime	Да	Да	Нет	Да + дополнительные возможности
Array/JSON/URL/IP/Geo	Нет	Частично	Нет	Да
Прямые запросы к файлам	Нет	Да	Да	Да
Поддержка облачных хранилищ	Нет	Ограниченная поддержка	Да	Да

Статистика API

Категория	Количество	Покрытие
Методы DataFrame	209	100% API pandas
Аксессор Series.str	56	100% API pandas
Аксессор Series.dt	42+	100%+ (включая дополнительные возможности ClickHouse)
Аксессор Series.arr	37	Специфичный для ClickHouse
Аксессор Series.json	13	Специфичный для ClickHouse
Аксессор Series.url	15	Специфичный для ClickHouse
Аксессор Series.ip	9	Специфичный для ClickHouse
Аксессор Series.geo	14	Специфичный для ClickHouse
Всего методов API	630+	-

Начало работы

Быстрый старт - Установка и базовое использование
Миграция с Pandas - Пошаговое руководство по переходу с Pandas

Справочник по API

Factory Methods - Фабричные методы для создания DataStore из различных источников
Query Building - Операции построения запросов в стиле SQL
Pandas Compatibility - Все 209 методов, совместимых с pandas
Accessors - аксессоры для String, DateTime, Array, JSON, URL, IP, Geo
Aggregation - агрегатные и оконные функции
I/O Operations - чтение и запись данных

Продвинутые темы

Модель выполнения - Ленивые вычисления и кэширование
Справочник классов - Полный справочник по API

Конфигурация и отладка

Конфигурация - Все параметры конфигурации
Режим производительности - режим, ориентированный на SQL, для максимальной пропускной способности
Отладка - EXPLAIN, профилирование и логирование

Руководства для пользователей pandas

Pandas Cookbook - Распространённые приёмы
Key Differences - Важные отличия от pandas
Performance Guide - Руководство по оптимизации производительности
SQL for Pandas Users - Понимание SQL, лежащего в основе операций pandas

Краткий пример

from chdb import datastore as pd

# Read data from various sources
ds = pd.read_csv("sales.csv")
# or: ds = pd.DataStore.uri("s3://bucket/sales.parquet")
# or: ds = pd.DataStore.from_mysql("mysql://user:pass@host/db/table")

# Familiar pandas operations - automatically optimized to SQL
result = (ds
    .filter(ds['amount'] > 1000)           # WHERE amount > 1000
    .groupby('region')                      # GROUP BY region
    .agg({'amount': ['sum', 'mean']})       # SUM(amount), AVG(amount)
    .sort_values('sum', ascending=False)    # ORDER BY sum DESC
    .head(10)                               # LIMIT 10
)

# View the generated SQL
print(result.to_sql())

# Execute and get results
df = result.to_df()  # Returns pandas DataFrame

Следующие шаги

Впервые используете DataStore? Начните с краткого руководства по началу работе
Переходите с pandas? Ознакомьтесь с руководством по миграции
Хотите узнать больше? Изучите справочник API

Ключевые возможности​

Архитектура​

Миграция из Pandas одной строкой​

Сравнение производительности​

Когда использовать DataStore​

Сравнение возможностей​

Статистика API​

Навигация по документации​

Начало работы​

Справочник по API​

Продвинутые темы​

Конфигурация и отладка​

Руководства для пользователей pandas​

Краткий пример​

Следующие шаги​