将来自社区的Apache Cassandra专家和DataStax聚集在一起。

想学习吗?有一个问题?想分享您的专业知识吗?你是在正确的地方!

不知道从哪里开始? 入门

 

问题

瑞安·奎伊(Ryan Quey)头像图片
瑞安·奎伊(Ryan Quey) ·

我该如何调试错误"太多的连续分页会话已经在运行"?

我在DSE 6.8.0集群上运行一个jj游戏官方下载作业,当我执行某个`regexp_replace`时,它返回错误`无效请求,已经在运行太多连续页面调度会话:60'

val punctuation = """!"#$%&\'()*+,-./:;<=>?@[\]^_\{|\}\~"""
val descNoPunct = df.withColumn("desc_no_punct", regexp_replace($"description", punctuation, ""))

(“描述”列是Cassandra中的TEXT类型)

如果有帮助,这里还有更多错误消息:

org.apache.spark.jj游戏官方下载Exception: Job aborted due to stage failure: Task 0 in stage 21.0 failed 10 times, most recent failure: Lost task 0.9 in stage 21.0 (TID 174, 127.0.0.1, executor 2): java.io.IOException: Exception during execution of SELECT "episode_guid", "description" FROM "podcast_analysis_tool"."episodes_by_podcast" WHERE token("podcast_api", "podcast_api_id") > ?   ALLOW FILTERING: Invalid request, 太多的连续分页会话已经在运行: 60
at com.datastax.spark.connector.rdd.CassandraTableScanRDD.com$datastax$spark$connector$rdd$CassandraTableScanRDD$$fetchTokenRange(CassandraTableScanRDD.scala:349)
at com.datastax.spark.connector.rdd.CassandraTableScanRDD$$anonfun$17.apply(CassandraTableScanRDD.scala:366)
at com.datastax.spark.connector.rdd.CassandraTableScanRDD$$anonfun$17.apply(CassandraTableScanRDD.scala:366)
...

如果有帮助的话,我可以给出更多代码,但是实际上我猜是因为它连续运行了太多次而没有对代码做任何“ LIMIT”操作,所以我猜想它正在发生。

我有三个相关的问题:

  1. 有没有一种方法可以检查给定时刻当前正在运行多少个连续的寻呼会话?
  2. 是否有关于连续分页的最新文档? (Google搜索通常会显示 这个博客 帖子,但这是三年前发布的,指的是DSE 5.0,有些观点似乎已经过时了)
  3. jj游戏官方下载中是否有一种方法可以让它等待而不是添加更多的连续分页会话?
jj游戏官方下载-Cassandra连接器
10 | 1000 所需字符 剩余字符 超出字符

最多可以使用8个附件(包括图像),每个附件最多1.0 MiB,总共10.0 MiB。

1 回答

贝蒂娜·斯温纳顿头像图片
贝蒂娜·斯温纳顿 已回答 ·

你好 @瑞安奎伊,

除非您将具有60个以上执行者的作业提交到单个节点,否则我不希望健康的jj游戏官方下载作业达到此限制。如果启用了连续分页,则每个执行程序不应请求多个会话。

So, I would first focus the debugging effort onto the job itself: Check the executor logs, both stdout and stderr for each executor to see if the job executes without error before it hits this limit.

您可以从jj游戏官方下载 UI或直接在DSE节点上检查日志。在DSE软件包安装中,您可以在工作目录中找到相关作业的执行程序日志,即 ./var/lib/spark/worker/app-20200521133901-0008

某些错误可能导致执行者重复请求会话,从而导致超出此限制。该设置限制了每个节点的并发会话数。

如果执行程序日志没有错误,则可以启用进一步的调试日志记录,如您所引用的博客中所述。它是在功能引入时编写的,但仍然有效。让我知道您认为它已经过时了。

//www.fast-sem.com/blog/2017/04/dse-continuous-paging-tuning-and-support-guide

如果您想更新您的问题,我也很乐意查看您的jj游戏官方下载职位。

我希望这有助于对问题出在哪里有更多的了解。


根据评论中的讨论进行更新:

关于什么是连续分页及其工作方式,所引用的博客文章仍然大部分有效。

但是,正如某些人正确指出的那样,有些事情已经改变 @瑞安奎伊

Since the release of DSE 6.0, continuous paging is now enabled by default, and it can now be configured via a section in the cassandra.yaml. The setting is only relevant for jj游戏官方下载 reads.

看到这里 yaml配置.

The other configuration options through spark-defaults.conf and command line with the --conf option are still valid.

The parameter spark.dse.continuous_paging_enabled has been deprecated as of DSE 6.0, but can still be used, and is automatically replaced with spark.dse.continuousPagingEnabled

2 评论 分享
10 | 1000 所需字符 剩余字符 超出字符

最多可以使用8个附件(包括图像),每个附件最多1.0 MiB,总共10.0 MiB。

谢谢,这是非常有帮助的。我没有机会按照您概述的调试步骤进行操作,但是您是对的,当我仅在本地计算机上运行此作业(即,远远少于60的作业)时,达到极限很奇怪执行者)。

因为过时而跳出我的主要内容包括,除非我弄错了,否则文章说默认情况下禁用连续分页,而对我来说我很确定我没有打开它,但很明显正在使用。我很有可能确实沿线的某个地方打开了它,只是忘了,哈哈!

再次感谢

0个赞 0 ·

哦,是的,您完全就在那里!我将提出一个文档请求,以在文档中包含有关此功能的更多信息。

干杯!

1 Like 1 ·