Построение запросов в DataStore

DataStore предоставляет методы построения запросов в стиле SQL, которые транслируются в оптимизированные SQL-запросы. Все операции остаются ленивыми до тех пор, пока не понадобятся результаты.

Обзор методов построения запросов

Метод	SQL-эквивалент	Описание
`select(*cols)`	`SELECT cols`	Выбор столбцов
`filter(cond)`	`WHERE cond`	Фильтрация строк
`where(cond)`	`WHERE cond`	Синоним метода filter
`sort(*cols)`	`ORDER BY cols`	Сортировка строк
`orderby(*cols)`	`ORDER BY cols`	Синоним метода sort
`limit(n)`	`LIMIT n`	Ограничение числа строк
`offset(n)`	`OFFSET n`	Пропуск строк
`distinct()`	`DISTINCT`	Удаление дубликатов
`groupby(*cols)`	`GROUP BY cols`	Группировка строк
`having(cond)`	`HAVING cond`	Фильтрация групп
`join(right, ...)`	`JOIN`	Соединение DataStore'ов
`union(other)`	`UNION`	Объединение результатов

Выборка

`select`

Выберите конкретные столбцы из DataStore.

select(*fields: Union[str, Expression]) -> DataStore

Примеры:

from chdb.datastore import DataStore

ds = DataStore.from_file("employees.csv")

# Select by column names
result = ds.select('name', 'age', 'salary')

# Select all columns
result = ds.select('*')

# Select with expressions
result = ds.select(
    'name',
    (ds['salary'] * 12).as_('annual_salary'),
    ds['age'].as_('employee_age')
)

# Equivalent pandas style
result = ds[['name', 'age', 'salary']]

Фильтрация

`filter` / `where`

Фильтруйте строки по условиям. Оба метода равнозначны.

filter(condition) -> DataStore
where(condition) -> DataStore  # alias

Примеры:

ds = DataStore.from_file("employees.csv")

# Single condition
result = ds.filter(ds['age'] > 30)
result = ds.where(ds['salary'] >= 50000)

# Multiple conditions (AND)
result = ds.filter((ds['age'] > 30) & (ds['department'] == 'Engineering'))

# Multiple conditions (OR)
result = ds.filter((ds['city'] == 'NYC') | (ds['city'] == 'LA'))

# NOT condition
result = ds.filter(~(ds['status'] == 'inactive'))

# String conditions
result = ds.filter(ds['name'].str.contains('John'))
result = ds.filter(ds['email'].str.endswith('@company.com'))

# NULL checks
result = ds.filter(ds['manager_id'].notnull())
result = ds.filter(ds['bonus'].isnull())

# IN condition
result = ds.filter(ds['department'].isin(['Engineering', 'Product', 'Design']))

# BETWEEN condition
result = ds.filter(ds['salary'].between(50000, 100000))

# Chained filters (AND)
result = (ds
    .filter(ds['age'] > 25)
    .filter(ds['salary'] > 50000)
    .filter(ds['city'] == 'NYC')
)

Фильтрация в стиле Pandas

# Boolean indexing (equivalent to filter)
result = ds[ds['age'] > 30]
result = ds[(ds['age'] > 30) & (ds['salary'] > 50000)]

# Query method
result = ds.query('age > 30 and salary > 50000')

Сортировка

`sort` / `orderby`

Сортировать строки по одному или нескольким столбцам.

sort(*fields, ascending=True) -> DataStore
orderby(*fields, ascending=True) -> DataStore  # alias

Примеры:

ds = DataStore.from_file("employees.csv")

# Single column ascending
result = ds.sort('name')

# Single column descending
result = ds.sort('salary', ascending=False)

# Multiple columns
result = ds.sort('department', 'salary')

# Mixed order (use list for ascending parameter)
result = ds.sort('department', 'salary', ascending=[True, False])

# Pandas style
result = ds.sort_values('salary', ascending=False)
result = ds.sort_values(['department', 'salary'], ascending=[True, False])

Ограничения и пагинация

`limit`

Ограничивает количество возвращаемых строк.

limit(n: int) -> DataStore

`offset`

Пропустить первые n строк.

offset(n: int) -> DataStore

Примеры:

ds = DataStore.from_file("employees.csv")

# First 10 rows
result = ds.limit(10)

# Skip first 100, take next 50
result = ds.offset(100).limit(50)

# Pandas style
result = ds.head(10)
result = ds.tail(10)
result = ds.iloc[100:150]

Уникальные значения

`distinct`

Удаляет дубликаты строк.

distinct(subset=None, keep='first') -> DataStore

Примеры:

ds = DataStore.from_file("events.csv")

# Remove all duplicate rows
result = ds.distinct()

# Remove duplicates based on specific columns
result = ds.distinct(subset=['user_id', 'event_type'])

# Pandas style
result = ds.drop_duplicates()
result = ds.drop_duplicates(subset=['user_id'])

Группировка

`groupby`

Группировать строки по одному или нескольким столбцам. Возвращает объект LazyGroupBy.

groupby(*fields, sort=True, as_index=True, dropna=True) -> LazyGroupBy

Примеры:

ds = DataStore.from_file("sales.csv")

# Group by single column
by_region = ds.groupby('region')

# Group by multiple columns
by_region_product = ds.groupby('region', 'product')

# Aggregation after groupby
result = ds.groupby('region')['amount'].sum()
result = ds.groupby('region').agg({'amount': 'sum', 'quantity': 'mean'})

# Multiple aggregations
result = ds.groupby('category').agg({
    'price': ['min', 'max', 'mean'],
    'quantity': 'sum'
})

# Named aggregation
result = ds.groupby('region').agg(
    total_amount=('amount', 'sum'),
    avg_quantity=('quantity', 'mean'),
    order_count=('order_id', 'count')
)

`having`

Фильтрация групп после агрегации.

having(condition: Union[Condition, str]) -> DataStore

Примеры:

# Filter groups with total > 10000
result = (ds
    .groupby('region')
    .agg({'amount': 'sum'})
    .having(ds['sum'] > 10000)
)

# Using SQL-style having
result = (ds
    .select('region', 'SUM(amount) as total')
    .groupby('region')
    .having('total > 10000')
)

Соединения

`join`

Объединяет два хранилища данных (DataStore).

join(right, on=None, how='inner', left_on=None, right_on=None) -> DataStore

Параметры:

Параметр	Тип	Значение по умолчанию	Описание
`right`	DataStore	обязательный	Правый DataStore для объединения
`on`	str/list	`None`	Столбец(ы), по которому выполняется объединение
`how`	str	`'inner'`	Тип объединения (join): 'inner', 'left', 'right', 'outer'
`left_on`	str/list	`None`	Столбец(ы) для левого объединения (join)
`right_on`	str/list	`None`	Столбец(ы) для правого объединения (join)

Примеры:

employees = DataStore.from_file("employees.csv")
departments = DataStore.from_file("departments.csv")

# Inner join on single column
result = employees.join(departments, on='dept_id')

# Left join
result = employees.join(departments, on='dept_id', how='left')

# Join on different column names
result = employees.join(
    departments,
    left_on='department_id',
    right_on='id',
    how='inner'
)

# Pandas style merge
from chdb import datastore as pd
result = pd.merge(employees, departments, on='dept_id')
result = pd.merge(employees, departments, left_on='department_id', right_on='id')

`union`

Объединяет результаты двух DataStore.

union(other, all=False) -> DataStore

Примеры:

ds1 = DataStore.from_file("sales_2023.csv")
ds2 = DataStore.from_file("sales_2024.csv")

# UNION (removes duplicates)
result = ds1.union(ds2)

# UNION ALL (keeps duplicates)
result = ds1.union(ds2, all=True)

# Pandas style
from chdb import datastore as pd
result = pd.concat([ds1, ds2])

Условные выражения

`when`

Создаёт выражения CASE WHEN.

when(condition, value) -> CaseWhenBuilder

Примеры:

ds = DataStore.from_file("employees.csv")

# Simple case-when
result = ds.select(
    'name',
    ds.when(ds['salary'] > 100000, 'High')
      .when(ds['salary'] > 50000, 'Medium')
      .otherwise('Low')
      .as_('salary_tier')
)

# With column assignment
ds['salary_tier'] = (
    ds.when(ds['salary'] > 100000, 'High')
      .when(ds['salary'] > 50000, 'Medium')
      .otherwise('Low')
)

Сырой SQL

`run_sql` / `sql`

Выполняйте произвольные SQL-запросы.

run_sql(query: str) -> DataStore
sql(query: str) -> DataStore  # alias

Примеры:

from chdb.datastore import DataStore

# Execute raw SQL
result = DataStore().sql("""
    SELECT 
        department,
        COUNT(*) as count,
        AVG(salary) as avg_salary
    FROM file('employees.csv', 'CSVWithNames')
    WHERE status = 'active'
    GROUP BY department
    HAVING count > 5
    ORDER BY avg_salary DESC
    LIMIT 10
""")

# SQL on existing DataStore
ds = DataStore.from_file("employees.csv")
result = ds.sql("SELECT * FROM __table__ WHERE age > 30")

`to_sql`

Позволяет просмотреть сгенерированный SQL без выполнения.

to_sql(**kwargs) -> str

Примеры:

ds = DataStore.from_file("employees.csv")

query = (ds
    .filter(ds['age'] > 30)
    .groupby('department')
    .agg({'salary': 'mean'})
    .sort('mean', ascending=False)
)

print(query.to_sql())
# Output:
# SELECT department, AVG(salary) AS mean
# FROM file('employees.csv', 'CSVWithNames')
# WHERE age > 30
# GROUP BY department
# ORDER BY mean DESC

Цепочки вызовов методов

Все методы построения запроса поддерживают флюентный интерфейс и могут вызываться цепочкой:

from chdb.datastore import DataStore

ds = DataStore.from_file("sales.csv")

result = (ds
    .select('region', 'product', 'amount', 'date')
    .filter(ds['date'] >= '2024-01-01')
    .filter(ds['amount'] > 100)
    .groupby('region', 'product')
    .agg({
        'amount': ['sum', 'mean'],
        'date': 'count'
    })
    .having(ds['sum'] > 10000)
    .sort('sum', ascending=False)
    .limit(20)
)

# View SQL
print(result.to_sql())

# Execute
df = result.to_df()

Псевдонимы

`as_`

Устанавливает псевдоним для столбца или подзапроса.

as_(alias: str) -> DataStore

Примеры:

# Column alias
result = ds.select(
    ds['name'].as_('employee_name'),
    (ds['salary'] * 12).as_('annual_salary')
)

# Subquery alias
subquery = ds.filter(ds['age'] > 30).as_('senior_employees')

Обзор методов построения запросов​

Выборка​

select​

Фильтрация​

filter / where​

Фильтрация в стиле Pandas​

Сортировка​

sort / orderby​

Ограничения и пагинация​

limit​

offset​

Уникальные значения​

distinct​

Группировка​

groupby​

having​

Соединения​

join​

union​

Условные выражения​

when​

Сырой SQL​

run_sql / sql​

to_sql​

Цепочки вызовов методов​

Псевдонимы​

as_​

Обзор методов построения запросов

Выборка

`select`

Фильтрация

`filter` / `where`

Фильтрация в стиле Pandas

Сортировка

`sort` / `orderby`

Ограничения и пагинация

`limit`

`offset`

Уникальные значения

`distinct`

Группировка

`groupby`

`having`

Соединения

`join`

`union`

Условные выражения

`when`

Сырой SQL

`run_sql` / `sql`

`to_sql`

Цепочки вызовов методов

Псевдонимы

`as_`