[CH] sum with filter bad performance compared to vanilla spark #8492

taiyang-li · 2025-01-10T03:08:08Z

Backend

CH (ClickHouse)

Bug description

gluten

0: jdbc:hive2://localhost:10000/> set spark.gluten.enabled = true; 
+-----------------------+--------+
|          key          | value  |
+-----------------------+--------+
| spark.gluten.enabled  | true   |
+-----------------------+--------+
1 row selected (0.034 seconds)
0: jdbc:hive2://localhost:10000/> 
0: jdbc:hive2://localhost:10000/> 
0: jdbc:hive2://localhost:10000/> select sum(if(id%3=0, id, 0)) from range(100000000);
+-----------------------------------+
| sum((IF(((id % 3) = 0), id, 0)))  |
+-----------------------------------+
| 1666666683333333                  |
+-----------------------------------+
1 row selected (64.729 seconds)
0: jdbc:hive2://localhost:10000/> select sum(if(id%3=0, id, 0)) from range(100000000);
+-----------------------------------+
| sum((IF(((id % 3) = 0), id, 0)))  |
+-----------------------------------+
| 1666666683333333                  |
+-----------------------------------+
1 row selected (64.811 seconds)

vanilla

0: jdbc:hive2://localhost:10000/> set spark.gluten.enabled = false; 
+-----------------------+--------+
|          key          | value  |
+-----------------------+--------+
| spark.gluten.enabled  | false  |
+-----------------------+--------+
1 row selected (0.09 seconds)
0: jdbc:hive2://localhost:10000/> select sum(id) filter(where id % 3 = 0) from range(100000000);
+----------------------------------------+
| sum(id) FILTER (WHERE ((id % 3) = 0))  |
+----------------------------------------+
| 1666666683333333                       |
+----------------------------------------+
1 row selected (0.333 seconds)

Spark version

None

Spark configurations

No response

System information

No response

Relevant logs

No response

The text was updated successfully, but these errors were encountered:

taiyang-li · 2025-01-14T03:47:36Z

Update: after range operator is offloaded to CH. The performance of gluten is much faster, but still slower than vanilla spark (1.216s vs 0.333s).

0: jdbc:hive2://localhost:10000/> set spark.gluten.enabled = true; 
+-----------------------+--------+
|          key          | value  |
+-----------------------+--------+
| spark.gluten.enabled  | true   |
+-----------------------+--------+
1 row selected (0.045 seconds)
0: jdbc:hive2://localhost:10000/> select sum(if(id%3=0, id, 0)) from range(100000000); 
+-----------------------------------+
| sum((IF(((id % 3) = 0), id, 0)))  |
+-----------------------------------+
| 1666666683333333                  |
+-----------------------------------+
1 row selected (1.216 seconds)

taiyang-li added bug Something isn't working triage labels Jan 10, 2025

github-actions bot linked a pull request Jan 14, 2025 that will close this issue

[GLUTEN-8492][CH] Offload RangeExec #8518

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[CH] sum with filter bad performance compared to vanilla spark #8492

[CH] sum with filter bad performance compared to vanilla spark #8492

taiyang-li commented Jan 10, 2025

taiyang-li commented Jan 14, 2025 •

edited

Loading

[CH] sum with filter bad performance compared to vanilla spark #8492

[CH] sum with filter bad performance compared to vanilla spark #8492

Comments

taiyang-li commented Jan 10, 2025

Backend

Bug description

Spark version

Spark configurations

System information

Relevant logs

taiyang-li commented Jan 14, 2025 • edited Loading

taiyang-li commented Jan 14, 2025 •

edited

Loading