一个有趣的项目:chdb

·

3 min read

不记得是从哪里知道这个项目,总之是躺在我的 logseq 的 todo 列表里面了,然后几天前(三个朋前)牛刀小试了一下,结果最近瞄到的 1brc 这个项目,正好拿来一下呗

1brc 简介

工程师贡纳尔·莫林在元旦发起一个挑战(1BRC),挑战从 1 月 1 日持续到 1 月 31 日。

如果你决定接受它,你的任务看似简单: 写一个 Java 程序,用于从文本文件中检索温度测量值并计算每个气象站的最小、平均值和最高温度。
只有一点需要注意:文件有 1,000,000,000 行!(1 billion, 10亿行)。

chdb 是什么?

chDB 是一个由 ClickHouse 驱动的嵌入式 SQL OLAP 引擎

对于一个轻量级萌新+爱好者,这东西一出场,便成功吸引了我的注意力,但还没想好用它来做点啥

安装 clickhouse vs chDB

这是一个极易形成对比的地方,如果你想要安装一个完整的clickhouse,

sudo apt-get install -y apt-transport-https ca-certificates dirmngr
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 8919F6BD2B48D754

echo "deb https://packages.clickhouse.com/deb stable main" | sudo tee \
    /etc/apt/sources.list.d/clickhouse.list
sudo apt-get update

sudo apt-get install -y clickhouse-server clickhouse-client

sudo service clickhouse-server start
clickhouse-client # or "clickhouse-client --password" if you've set up a password.

呃,还是挺复杂的,当然,clickhouse 也有 local 模式:

ClickHouse-local 模式可以让用户能够对本地文件执行快速处理,而无需部署和配置 ClickHouse 服务器。ClickHouse-local 使用与 ClickHouse Server 相同的核心,因此它支持大多数功能以及相同的格式和表引擎。

安装也比较简单:

# curl -O 'https://builds.clickhouse.com/master/macos/clickhouse' && chmod a+x ./clickhouse
# ./clickhouse -q "select version()"
24.3.1.1526

然而,使用chdb,只需如此简单与丝滑:

# pip install chdb
# python -m chdb "select version()"
"23.10.1.1"

应用

虽然知道把 clickhouse 做成 chdb 这种嵌入式形态很厉害,但总需要一个场景去实践,用 1brc 试水再合适不过了

环境:

  • Python 3.12.0

  • OSX 14.5

  • 内存 32 GB 2667 MHz DDR4

  • 处理器 2.6 GHz 六核Intel Core i7

chdb 1.4.1

import time
import chdb

query_sql = """
-- Change to your number of physical CPU threads for the best performance.
SET max_insert_threads = 28;
SET max_threads = 28;
SET format_csv_delimiter = ';';

SELECT
    concat('{', arrayStringConcat(groupArray(formatted_result), ', '), '}') AS final_output
FROM (
    SELECT
        format('{}={}/{}/{}', location, toDecimalString(min(temperature), 1), toDecimalString(avg(temperature), 1), toDecimalString(max(temperature), 1)) AS formatted_result
    FROM file('measurements.txt', 'CSV', 'location String, temperature Float32')
    GROUP BY location
    ORDER BY location
)
"""
start = time.time()
res = chdb.query(query_sql)
elapsed = time.time() - start
# 连续运行三次的耗时
# Query took 59.594 seconds
# Query took 39.029 seconds
# Query took 36.696 seconds
print(f'Query took {elapsed:.3f} seconds')
print(f'{res}')

duckdb 1.0.0

最近 duckdb 发布了 1.0.0 这个版本,来看下表现如何

import duckdb
import time
query_sql = '''
-- Load the data
CREATE OR REPLACE TABLE measurements AS
        SELECT * FROM READ_CSV('measurements.txt', header=false, columns= {'station_name':'VARCHAR','measurement':'double'}, delim=';');

-- Run calculations
WITH src AS (SELECT station_name,
                    MIN(measurement) AS min_measurement,
                    CAST(AVG(measurement) AS DECIMAL(8,1)) AS mean_measurement,
                    MAX(measurement) AS max_measurement
            FROM measurements
            GROUP BY station_name)
    SELECT '{' ||
            ARRAY_TO_STRING(LIST_SORT(LIST(station_name || '=' || CONCAT_WS('/',min_measurement, mean_measurement, max_measurement))),', ') ||
            '}' AS "1BRC"
    FROM src;
'''
start = time.time()
res = duckdb.sql(query_sql)
elapsed = time.time() - start
# 连续运行三次的耗时
# Query took 78.377 seconds
# Query took 72.713 seconds
# Query took 63.916 seconds
print(f'Query took {elapsed:.3f} seconds')
print(f'{res}')

单从时间上看,chdb 平均用时要更少,可以说非常强大了。

go 版本

第一次看到 1brc 还是今年3月份在 InfoQ 的微信公众号上到到的,看到 Ben Hoyt 大佬孜孜不倦的优化,有点被触动到了。虽然这篇文件拖了这么久,但根据大佬最新的代码和算法,在我本地跑了一下,三次耗时如下所示:

  • 5.659881206s

  • 6.197552364s

  • 4.799696744s

不是最强的,但确实非常优秀就是了。毕竟,最简单的实现耗时是:2m30.835476239s

总结

不考虑 SQL 优化的前提下,个人理解 chdb 与 duckdb 提供的是相对通用的数据分析能力,它们短小而精悍,提供了性能的下限;而使用编程语言,针对特定问题的不断优化,压榨,获得的性能收益是异常惊人的。作为一个算法难民,是不是应该重新捡起算法了

番外插曲

可能是因为太长时间没写 python 了,当我把 chdb 的 1brc 代码示例保存为 chdb.py 时,遇到以下错误:

AttributeError: partially initialized module 'chdb' has no attribute 'query' (most likely due to a circular import)

初,感觉很奇怪,百思不得其解,还排查了好一会,最后才发现是文件命令问题,重新学习一下 python 的包导入

Python解释器在导入模块时,首先会在当前目录查找文件名匹配的模块。如果找到了同名文件,它会试图从这个文件中加载模块,而不是从已安装的包中加载。因此,当你在当前目录下运行 import chdb 时,Python会尝试导入你自己的 chdb.py 文件,而不是你安装的 chdb 包,这就导致了循环导入的问题。

还是要多写代码啊


参考: