一个有趣的项目：chdb

不记得是从哪里知道这个项目，总之是躺在我的 logseq 的 todo 列表里面了，然后几天前(三个朋前)牛刀小试了一下，结果最近瞄到的 1brc 这个项目，正好拿来一下呗

1brc 简介

工程师贡纳尔·莫林在元旦发起一个挑战(1BRC),挑战从 1 月 1 日持续到 1 月 31 日。

如果你决定接受它，你的任务看似简单：编写一个 Java 程序，用于从文本文件中检索温度测量值并计算每个气象站的最小、平均值和最高温度。
只有一点需要注意：文件有 1,000,000,000 行！（1 billion， 10亿行)。

chdb 是什么？

chDB 是一个由 ClickHouse 驱动的嵌入式 SQL OLAP 引擎

对于一个轻量级萌新+爱好者，这东西一出场，便成功吸引了我的注意力，但还没想好用它来做点啥

安装 clickhouse vs chDB

这是一个极易形成对比的地方，如果你想要安装一个完整的clickhouse，

sudo apt-get install -y apt-transport-https ca-certificates dirmngr
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 8919F6BD2B48D754

echo "deb https://packages.clickhouse.com/deb stable main" | sudo tee \
    /etc/apt/sources.list.d/clickhouse.list
sudo apt-get update

sudo apt-get install -y clickhouse-server clickhouse-client

sudo service clickhouse-server start
clickhouse-client # or "clickhouse-client --password" if you've set up a password.

呃，还是挺复杂的，当然，clickhouse 也有 local 模式：

ClickHouse-local 模式可以让用户能够对本地文件执行快速处理，而无需部署和配置 ClickHouse 服务器。ClickHouse-local 使用与 ClickHouse Server 相同的核心，因此它支持大多数功能以及相同的格式和表引擎。

安装也比较简单：

# curl -O 'https://builds.clickhouse.com/master/macos/clickhouse' && chmod a+x ./clickhouse
# ./clickhouse -q "select version()"
24.3.1.1526

然而，使用chdb，只需如此简单与丝滑：

# pip install chdb
# python -m chdb "select version()"
"23.10.1.1"

应用

虽然知道把 clickhouse 做成 chdb 这种嵌入式形态很厉害，但总需要一个场景去实践，用 1brc 试水再合适不过了

环境：

Python 3.12.0
OSX 14.5
内存 32 GB 2667 MHz DDR4
处理器 2.6 GHz 六核Intel Core i7

chdb 1.4.1

import time
import chdb

query_sql = """
-- Change to your number of physical CPU threads for the best performance.
SET max_insert_threads = 28;
SET max_threads = 28;
SET format_csv_delimiter = ';';

SELECT
    concat('{', arrayStringConcat(groupArray(formatted_result), ', '), '}') AS final_output
FROM (
    SELECT
        format('{}={}/{}/{}', location, toDecimalString(min(temperature), 1), toDecimalString(avg(temperature), 1), toDecimalString(max(temperature), 1)) AS formatted_result
    FROM file('measurements.txt', 'CSV', 'location String, temperature Float32')
    GROUP BY location
    ORDER BY location
)
"""
start = time.time()
res = chdb.query(query_sql)
elapsed = time.time() - start
# 连续运行三次的耗时
# Query took 59.594 seconds
# Query took 39.029 seconds
# Query took 36.696 seconds
print(f'Query took {elapsed:.3f} seconds')
print(f'{res}')

duckdb 1.0.0

最近 duckdb 发布了 1.0.0 这个版本，来看下表现如何

import duckdb
import time
query_sql = '''
-- Load the data
CREATE OR REPLACE TABLE measurements AS
        SELECT * FROM READ_CSV('measurements.txt', header=false, columns= {'station_name':'VARCHAR','measurement':'double'}, delim=';');

-- Run calculations
WITH src AS (SELECT station_name,
                    MIN(measurement) AS min_measurement,
                    CAST(AVG(measurement) AS DECIMAL(8,1)) AS mean_measurement,
                    MAX(measurement) AS max_measurement
            FROM measurements
            GROUP BY station_name)
    SELECT '{' ||
            ARRAY_TO_STRING(LIST_SORT(LIST(station_name || '=' || CONCAT_WS('/',min_measurement, mean_measurement, max_measurement))),', ') ||
            '}' AS "1BRC"
    FROM src;
'''
start = time.time()
res = duckdb.sql(query_sql)
elapsed = time.time() - start
# 连续运行三次的耗时
# Query took 78.377 seconds
# Query took 72.713 seconds
# Query took 63.916 seconds
print(f'Query took {elapsed:.3f} seconds')
print(f'{res}')

单从时间上看，chdb 平均用时要更少，可以说非常强大了。

go 版本

第一次看到 1brc 还是今年3月份在 InfoQ 的微信公众号上到到的，看到 Ben Hoyt 大佬孜孜不倦的优化，有点被触动到了。虽然这篇文件拖了这么久，但根据大佬最新的代码和算法，在我本地跑了一下，三次耗时如下所示：

5.659881206s
6.197552364s
4.799696744s

不是最强的，但确实非常优秀就是了。毕竟，最简单的实现耗时是：2m30.835476239s

总结

不考虑 SQL 优化的前提下，个人理解 chdb 与 duckdb 提供的是相对通用的数据分析能力，它们短小而精悍，提供了性能的下限；而使用编程语言，针对特定问题的不断优化，压榨，获得的性能收益是异常惊人的。作为一个算法难民，是不是应该重新捡起算法了

番外插曲

可能是因为太长时间没写 python 了，当我把 chdb 的 1brc 代码示例保存为 chdb.py 时，遇到以下错误:

AttributeError: partially initialized module 'chdb' has no attribute 'query' (most likely due to a circular import)

初，感觉很奇怪，百思不得其解，还排查了好一会，最后才发现是文件命令问题，重新学习一下 python 的包导入

Python解释器在导入模块时，首先会在当前目录查找文件名匹配的模块。如果找到了同名文件，它会试图从这个文件中加载模块，而不是从已安装的包中加载。因此，当你在当前目录下运行 import chdb 时，Python会尝试导入你自己的 chdb.py 文件，而不是你安装的 chdb 包，这就导致了循环导入的问题。

还是要多写代码啊

参考：

一个有趣的项目：chdb

1brc 简介

chdb 是什么？

安装 clickhouse vs chDB

应用

chdb 1.4.1

duckdb 1.0.0

go 版本

总结

番外插曲

Comments

More from this blog

2025: 祛魅灰度念头通达

大厂祛魅：破碎的专注力

Black Swan

2024年: 逐渐平静

企业软件之殇

Command Palette

1brc 简介

chdb 是什么？

安装 clickhouse vs chDB

应用

chdb 1.4.1

duckdb 1.0.0

go 版本

总结

番外插曲

Comments

More from this blog