将来自社区的Apache Cassandra专家和DataStax聚集在一起。

想学习吗?有一个问题?想分享您的专业知识吗?你是在正确的地方!

不知道从哪里开始? 入门

 

anshita333saxena_187432头像图像
anshita333saxena_187432 ·

当Spark-Cassandra连接器访问集群时,如何减少Scylla DB节点上的cpu利用率?

浏览配置文档。
//github.com/datastax/spark-cassandra-connector/blob/master/doc/reference.md

尝试找出方法,使我们能够以较低的cpu利用率访问数据库节点。您能否建议在此处使用以减少群集的cpu利用率的参数名称?
桌子大小:15GB

Spark-Cassandra连接器火花提交
4 评论
10 | 1000 所需字符 剩余字符 超出字符

最多可以使用8个附件(包括图像),每个附件最多1.0 MiB,总共10.0 MiB。

我尝试放置这些参数来检查cpu利用率是否下降,但是在访问cassandra-spark-connector时,所有这些参数都无法降低节点的cpu利用率。

Spark节点:64 GB内存
数据库节点:128 GB内存
尝试过的参数:spark.cassandra.input.split.size_in_mb,spark.cassandra.connection.connections_per_executor_max
您能否在这里帮助优化CPU利用率,目前在运行Spark作业时它在所有节点中的利用率均为50%?

0个赞 0 ·

当我设置每个节点具有8个核心的次要Spark集群时,我可以看到db节点的CPU利用率从50%下降到20%。
次要Spark集群(2个节点):每个节点8个核心
主要Spark集群(2个节点):每个节点32个核心。
我正在查看Spark-Cassandra连接器属性,然后可以看到我们可以使用参数来减少核心数量: --total-executor-cores

但是,在我的Spark Web UI中,它仍显示相同的内核-64内核,因此主要Spark集群中的CPU使用率相同,为50%。
你能建议我在这里想念什么吗?

0个赞 0 ·

找到减少集群cpu利用率的参数。

参数:

spark.cores.max

spark.executor.cores


实际上,此参数配置调整需要从Spark Cluster核心完成。由于内核数量增加,spark正在将更多的cpu-utilization负载传递给数据库集群。
使用的网址: //spark.apache.org/docs/latest/configuration.html
//docs.fast-sem.com/en/dse/6.8/dse-dev/datastax_enterprise/spark/sparkCassandraProperties.html

0个赞 0 ·

1 回答

埃里克·拉米雷斯(Erick Ramirez)头像图片
埃里克·拉米雷斯(Erick Ramirez) 已回答 ·

只是让您知道我们没有针对ScyllaDB进行测试,并且我们知道用户遇到了问题,因为它是Apache Cassandra的分支,内部实现也有所不同。

由于这个原因,SyllaDB的人们已经分叉了Spark连接器,他们支持自己的实现。干杯!

1 评论 分享
10 | 1000 所需字符 剩余字符 超出字符

最多可以使用8个附件(包括图像),每个附件最多1.0 MiB,总共10.0 MiB。

当然,埃里克!谢谢回复。

0个赞 0 ·