Clusters crash simultaneously #7684

haskell91 · 2022-02-16T12:03:47Z

haskell91
Feb 16, 2022

Environmental Info:
K3s Version:
v1.21.5+k3s2

Node(s) CPU architecture, OS, and Version:

KVM:
OS type and version: Ubuntu 20.04.2 LTS (GNU/Linux 5.4.0-65-generic x86_64)
CPU per node: 8
Memory per node: 8 GB

Server:
OS type and version: Ubuntu 20.04.2 LTS (GNU/Linux 5.4.0-65-generic x86_64)
CPU per node: 32
Memory per node: 252 GB
Disk type: LVM, XFS, local disks
Network bandwidth and latency between the nodes: 2x 1GBit LACP, 0.07ms ping average
Underlying Infrastructure: Baremetal

Cluster Configuration:
Playground environment:
(Play-Rancher) Rancher: 2 masters (KVM)
(Play-App) Cluster imported in Rancher: 2 masters + 1 worker (KVM)
Galera as a config store.

Dev environment:
(Dev-Rancher) Rancher: 2 masters (KVM)
(Dev-App) Cluster imported in Rancher: 2 masters + 1 worker (Server)
Galera as a config store (different instance on different hardware, only similarity with playground is Fibre Channel).

The clusters use multiple but shared docker registries.

Describe the bug:
From time to time, we see increases in the reported transaction time. This causes all 4 the clusters to crash simultaneously.
We don't see any significant packet loss in the network and the clusters use databases on different hardware.
The connection limit of the databases is not reached. Transactions times are low most of the time (for weeks and months), therefore we don't think this is a problem with the hardware we use.

Here are logs for all clusters:

(Dev-Rancher) KVM:

Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1001399005]: ---"Transaction committed" 10061ms (08:36:00.027)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1802115141]: ---"Transaction committed" 9424ms (08:36:00.032)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[61029158]: ---"Transaction committed" 9425ms (08:36:00.033)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1763544935]: ---"Transaction committed" 9422ms (08:36:00.034)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[471639468]: ---"Transaction committed" 7727ms (08:36:00.036)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[988208667]: ---"Transaction committed" 6148ms (08:36:00.039)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[321329074]: ---"Transaction committed" 5953ms (08:36:00.039)
Feb 15 08:36:12 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1343029813]: ---"Transaction committed" 5616ms (08:36:00.044)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1852181516]: ---"Transaction committed" 9252ms (11:19:00.170)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1714740439]: ---"Transaction committed" 8895ms (11:19:00.173)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1074736277]: ---"Transaction committed" 8889ms (11:19:00.174)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[237194675]: ---"Transaction committed" 8882ms (11:19:00.174)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1447550721]: ---"Transaction committed" 1862ms (11:19:00.176)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[2084800076]: ---"Transaction committed" 1859ms (11:19:00.177)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[293166570]: ---"Transaction committed" 6603ms (11:19:00.181)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1432459263]: ---"Transaction committed" 8890ms (11:19:00.182)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1518180310]: ---"Transaction committed" 2990ms (11:19:00.182)
Feb 15 11:19:20 app-rancher-master-01.2ln.company.de k3s[1612059]: Trace[1500672386]: ---"Transaction committed" 1863ms (11:19:00.182)

(Dev-App) Server:

Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[2079214704]: ---"Transaction committed" 10129ms (08:36:00.026)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[2125071639]: ---"Transaction committed" 10128ms (08:36:00.026)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[1483989561]: ---"Transaction committed" 9749ms (08:36:00.030)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[199079816]: ---"Transaction committed" 8642ms (08:36:00.035)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[1683550814]: ---"Transaction committed" 6964ms (08:36:00.037)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[123995701]: ---"Transaction committed" 6964ms (08:36:00.037)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[796133333]: ---"Transaction committed" 6963ms (08:36:00.038)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[792407890]: ---"Transaction committed" 4434ms (08:36:00.045)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[1403289884]: ---"Transaction committed" 1951ms (08:36:00.046)
Feb 15 08:36:12 server914vx.company.de k3s[1138]: Trace[101050040]: ---"Transaction committed" 724ms (08:36:00.047)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[184119412]: ---"Transaction committed" 10434ms (11:19:00.170)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1168385327]: ---"Transaction committed" 10433ms (11:19:00.170)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1468350339]: ---"Transaction committed" 8894ms (11:19:00.172)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1787532058]: ---"Transaction committed" 1868ms (11:19:00.175)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[361199911]: ---"Transaction committed" 1870ms (11:19:00.175)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[67120420]: ---"Transaction committed" 1871ms (11:19:00.175)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1669639088]: ---"Transaction committed" 8853ms (11:19:00.178)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1130564109]: ---"Transaction committed" 8705ms (11:19:00.179)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1943723929]: ---"Transaction committed" 8057ms (11:19:00.180)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1168915932]: ---"Transaction committed" 7272ms (11:19:00.181)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1588083750]: ---"Transaction committed" 3164ms (11:19:00.182)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[1523011261]: ---"Transaction committed" 3164ms (11:19:00.183)
Feb 15 11:19:20 server914vx.company.de k3s[1138]: Trace[90398221]: ---"Transaction committed" 2067ms (11:19:00.183)

(Play-App) KVM:

Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[5454255]: ---"Transaction committed" 10134ms (08:36:00.954)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[1719659988]: ---"Transaction committed" 9918ms (08:36:00.957)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[40146478]: ---"Transaction committed" 9901ms (08:36:00.958)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[2122262440]: ---"Transaction committed" 2900ms (08:36:00.959)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[680722271]: ---"Transaction committed" 2899ms (08:36:00.960)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[1142898613]: ---"Transaction committed" 2885ms (08:36:00.962)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[1608111882]: ---"Transaction committed" 8152ms (08:36:00.970)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[449068437]: ---"Transaction committed" 8153ms (08:36:00.971)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[1176847862]: ---"Transaction committed" 8097ms (08:36:00.971)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[564571906]: ---"Transaction committed" 529ms (08:36:00.975)
Feb 15 08:36:24 app-application-master-01.dev.nbo.company.de k3s[664]: Trace[1822492030]: ---"Transaction committed" 878ms (08:36:00.976)
Feb 15 14:47:27 app-application-master-01.dev.nbo.company.de k3s[1080097]: Trace[1063792236]: ---"Transaction committed" 588ms (14:47:00.437)
Feb 15 14:55:42 app-application-master-01.dev.nbo.company.de k3s[1080097]: Trace[1341989514]: ---"Transaction committed" 4432ms (14:55:00.543)
Feb 15 14:55:42 app-application-master-01.dev.nbo.company.de k3s[1080097]: Trace[713052291]: ---"Transaction committed" 3614ms (14:55:00.546)
Feb 15 14:55:42 app-application-master-01.dev.nbo.company.de k3s[1080097]: Trace[48816573]: ---"Transaction committed" 3388ms (14:55:00.547)

(Play-Rancher) KVM:

Feb 15 08:36:24 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[1570656087]: ---"Transaction committed" 8315ms (08:36:00.966)
Feb 15 08:36:24 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[2139166026]: ---"Transaction committed" 3836ms (08:36:00.973)
Feb 15 08:36:24 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[1226960592]: ---"Transaction committed" 946ms (08:36:00.975)
Feb 15 14:47:27 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[2055517690]: ---"Transaction committed" 892ms (14:47:00.430)
Feb 15 14:47:27 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[481869803]: ---"Transaction committed" 889ms (14:47:00.432)
Feb 15 14:47:27 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[58167359]: ---"Transaction committed" 886ms (14:47:00.432)
Feb 15 14:47:27 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[1042959514]: ---"Transaction committed" 891ms (14:47:00.433)
Feb 15 14:47:27 app-rancher-master-01.dev.nbo.company.de k3s[1122171]: Trace[441787302]: ---"Transaction committed" 528ms (14:47:00.435)
Feb 15 14:55:37 app-rancher-master-01.dev.nbo.company.de k3s[2686204]: Trace[66119691]: ---"Transaction committed" 149ms (14:55:00.327)
Feb 15 14:55:37 app-rancher-master-01.dev.nbo.company.de k3s[2686204]: Trace[66119691]: ---"Transaction committed" 662ms (14:55:00.007)
Feb 15 14:55:42 app-rancher-master-01.dev.nbo.company.de k3s[2686204]: Trace[175775297]: ---"Transaction committed" 4169ms (14:55:00.544)
Feb 15 14:55:42 app-rancher-master-01.dev.nbo.company.de k3s[2686204]: Trace[1765480072]: ---"Transaction committed" 653ms (14:55:00.552)
Feb 15 14:55:42 app-rancher-master-01.dev.nbo.company.de k3s[2686204]: Trace[116737644]: ---"Transaction committed" 731ms (14:55:00.556)

Steps To Reproduce:
We used the installation script and configured the data store like this:

INSTALL_K3S_SKIP_DOWNLOAD=true ./install.sh \
--datastore-endpoint="mysql://application_cluster:****@tcp(db-rancher.company.de:3306)/application_cluster_db"

Expected behavior:
The clusters should not crash and log more information that can be used to track down the issue.

Actual behavior:
Some external dependency or similar configuration of the clusters causes the clusters to crash.

brandond · 2022-02-16T18:42:19Z

brandond
Feb 16, 2022
Collaborator

I don't have enough information about your environment to determine what your different clusters might have in common. The fact that all the environments are doing it at the same time makes it pretty clear that there is a common environmental cause. What else is going on in your environment when the datastore latency increases. Backups? Storage maintenance? Periods of high load on some other system that shares infrastructure with your cluster? Higher than usual demand placed upon the Kubernetes datastore by similarly configured workloads?

0 replies

haskell91 · 2022-02-21T12:00:23Z

haskell91
Feb 21, 2022
Author

Thanks for your help. There aren't any similarly configured workloads we know of (and no unusual load in the clusters before the increase in transaction times begins).

We replaced the galera cluster for the development environment with a single MariaDB node.
This seems to help keeping the transaction times down. However we still see increases in all k3s clusters at roughly the same time (but now on a much lower level in the dev cluster, roughly one-third the times in the other environment).
We are examining all environmental factors at the moment and will keep you up to date.

Are there any known issues with k3s in combination with MariaDB Galera (2 or 3 nodes)?

Dev:

Feb 18 11:42:38 server914vx.company.de k3s[4330]: Trace[495614626]: ---"Transaction committed" 1010ms (11:42:00.226)
Feb 18 12:37:09 server914vx.company.de k3s[4330]: Trace[540481995]: ---"Transaction committed" 1029ms (12:37:00.223)
Feb 19 09:00:45 server914vx.company.de k3s[4330]: Trace[2091204737]: ---"Transaction committed" 3186ms (09:00:00.027)
Feb 19 09:00:45 server914vx.company.de k3s[4330]: Trace[1232942029]: ---"Transaction committed" 3185ms (09:00:00.027)
Feb 19 09:00:45 server914vx.company.de k3s[4330]: Trace[240434698]: ---"Transaction committed" 3186ms (09:00:00.028)
Feb 19 09:00:45 server914vx.company.de k3s[4330]: Trace[482649956]: ---"Transaction committed" 768ms (09:00:00.028)
Feb 19 09:00:45 server914vx.company.de k3s[4330]: Trace[1933758862]: ---"Transaction committed" 1428ms (09:00:00.029)
Feb 19 09:00:46 server914vx.company.de k3s[4330]: Trace[1987919546]: ---"Transaction committed" 1272ms (09:00:00.306)
Feb 19 09:00:46 server914vx.company.de k3s[4330]: Trace[1694549380]: ---"Transaction committed" 1268ms (09:00:00.309)
Feb 19 09:00:46 server914vx.company.de k3s[4330]: Trace[1046063901]: ---"Transaction committed" 1275ms (09:00:00.309)
Feb 19 09:00:46 server914vx.company.de k3s[4330]: Trace[663558375]: ---"Transaction committed" 1269ms (09:00:00.310)
Feb 20 03:26:31 server914vx.company.de k3s[4330]: Trace[90463813]: ---"Transaction committed" 1030ms (03:26:00.916)

Playground:

Feb 18 11:39:03 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[29867336]: ---"Transaction committed" 1769ms (11:39:00.620)
Feb 18 13:30:37 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1903855143]: ---"Transaction committed" 641ms (13:30:00.060)
Feb 18 19:53:15 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1521955311]: ---"Transaction committed" 538ms (19:53:00.349)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1974940654]: ---"Transaction committed" 1479ms (09:01:00.719)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1397193463]: ---"Transaction committed" 1479ms (09:01:00.720)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[887710983]: ---"Transaction committed" 1461ms (09:01:00.721)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[449633641]: ---"Transaction committed" 1461ms (09:01:00.721)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1005328807]: ---"Transaction committed" 1460ms (09:01:00.722)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1171188134]: ---"Transaction committed" 1403ms (09:01:00.723)
Feb 19 09:01:25 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1255549312]: ---"Transaction committed" 565ms (09:01:00.725)
Feb 19 09:01:34 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[67821253]: ---"Transaction committed" 2807ms (09:01:00.609)
Feb 19 09:01:34 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1018225637]: ---"Transaction committed" 2807ms (09:01:00.610)
Feb 19 09:01:34 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[289050856]: ---"Transaction committed" 2808ms (09:01:00.610)
Feb 19 09:01:34 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1609221573]: ---"Transaction committed" 2813ms (09:01:00.613)
Feb 19 09:01:44 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1867535357]: ---"Transaction committed" 5378ms (09:01:00.933)
Feb 19 09:01:44 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[2077569182]: ---"Transaction committed" 6274ms (09:01:00.934)
Feb 19 09:01:44 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[145984273]: ---"Transaction committed" 6277ms (09:01:00.935)
Feb 19 09:01:48 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1296187511]: ---"Transaction committed" 2049ms (09:01:00.497)
Feb 19 09:01:52 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1622126460]: ---"Transaction committed" 2118ms (09:01:00.650)
Feb 19 09:01:52 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1878902922]: ---"Transaction committed" 2118ms (09:01:00.654)
Feb 19 09:01:52 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[273605266]: ---"Transaction committed" 2116ms (09:01:00.654)
Feb 19 09:01:52 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1625916312]: ---"Transaction committed" 2120ms (09:01:00.656)
Feb 19 09:01:52 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[125575539]: ---"Transaction committed" 2120ms (09:01:00.657)
Feb 19 09:03:14 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[13715376]: ---"Transaction committed" 9145ms (09:03:00.464)
Feb 19 09:03:14 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[616618649]: ---"Transaction committed" 9147ms (09:03:00.464)
Feb 19 09:03:14 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[2029155330]: ---"Transaction committed" 4501ms (09:03:00.468)
Feb 19 09:03:14 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1464771673]: ---"Transaction committed" 8650ms (09:03:00.470)
Feb 19 11:35:23 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[688061960]: ---"Transaction committed" 8242ms (11:35:00.835)
Feb 19 11:35:23 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[2114819165]: ---"Transaction committed" 8241ms (11:35:00.836)
Feb 19 11:35:23 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[235821921]: ---"Transaction committed" 8114ms (11:35:00.836)
Feb 19 11:35:23 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1498514227]: ---"Transaction committed" 6401ms (11:35:00.843)
Feb 19 11:35:23 app-rancher-master-01.dev.nbo.company.de k3s[15202]: Trace[1636663233]: ---"Transaction committed" 6245ms (11:35:00.862)

0 replies

brandond · 2022-02-22T22:56:39Z

brandond
Feb 22, 2022
Collaborator

Are there any known issues with k3s in combination with MariaDB Galera (2 or 3 nodes)?

In general, any multi-master SQL backend that has auto_increment_increment greater than 1 will perform poorly with Kine due to its expectation that there are not jumps in the primary key sequence. There are a couple issues that have been opened about this:

The active-active mysql cluster primary key conflict because of the auto_increment_increment parameter not working kine#71
[Help Wanted] Watch paused when encoutering a large gap of incremental id kine#82
K3s with a mysql back end and rancherdb producing endless duplicate primary key errors. #2252

That doesn't explain why performance drops on both clusters at the same time though. There are no scheduled operations built in to K3s; so I continue to suspect that it's something common to or shared between your environments.

0 replies

haskell91 · 2022-03-21T20:25:35Z

haskell91
Mar 21, 2022
Author

Since we switched to single database nodes our clusters didn't experience any crashes.
However we still see warnings like this:

Mar 21 16:26:40 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:40.001754285+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:40 http: TLS handshake error from 10.199.30.115:59882: EOF"
Mar 21 16:26:40 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:40.001834589+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:40 http: TLS handshake error from 10.199.30.115:21786: EOF"
Mar 21 16:26:40 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:40.001936567+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:40 http: TLS handshake error from 10.199.30.115:26866: EOF"
Mar 21 16:26:46 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:46.010449133+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:46 http: TLS handshake error from 10.199.30.115:30744: EOF"
Mar 21 16:26:52 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:52.020961848+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:52 http: TLS handshake error from 10.199.30.115:65021: EOF"
Mar 21 16:26:52 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:52.022049257+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:52 http: TLS handshake error from 10.199.30.115:34104: EOF"
Mar 21 16:26:58 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:58.006644154+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:58 http: TLS handshake error from 10.199.30.115:23028: EOF"
Mar 21 16:26:58 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:58.006753191+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:58 http: TLS handshake error from 10.199.30.115:57545: EOF"
Mar 21 16:26:58 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:58.007833520+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:58 http: TLS handshake error from 10.199.30.115:10309: EOF"
Mar 21 16:26:58 server914sx.company.de k3s[1108]: time="2022-03-21T16:26:58.007983260+01:00" level=info msg="Cluster-Http-Server 2022/03/21 16:26:58 http: TLS handshake error from 10.199.30.115:55368: EOF"

Mar 02 16:41:02 server914sx.company.de k3s[6672]: time="2022-03-02T16:41:02.678038693+01:00" level=error msg="Remotedialer proxy error" error="websocket: close 1006 (abnormal closure): unexpected EOF"
Mar 02 16:41:07 server914sx.company.de k3s[6672]: time="2022-03-02T16:41:07.678815062+01:00" level=error msg="Remotedialer proxy error" error="dial tcp 10.199.30.115:6443: connect: connection refused"
Mar 02 16:41:12 server914sx.company.de k3s[6672]: time="2022-03-02T16:41:12.680558955+01:00" level=error msg="Remotedialer proxy error" error="dial tcp 10.199.30.115:6443: connect: connection refused"
Mar 02 16:41:17 server914sx.company.de k3s[6672]: time="2022-03-02T16:41:17.681995130+01:00" level=error msg="Remotedialer proxy error" error="dial tcp 10.199.30.115:6443: connect: connection refused"
Mar 02 17:35:42 server914sx.company.de k3s[170873]: time="2022-03-02T17:35:42.004579948+01:00" level=error msg="Remotedialer proxy error" error="read tcp 10.199.30.114:37322->10.199.30.115:6443: read: connection reset by peer"
Mar 02 17:35:47 server914sx.company.de k3s[170873]: time="2022-03-02T17:35:47.005667570+01:00" level=error msg="Remotedialer proxy error" error="dial tcp 10.199.30.115:6443: connect: connection refused"
Mar 02 17:35:52 server914sx.company.de k3s[170873]: time="2022-03-02T17:35:52.007461589+01:00" level=error msg="Remotedialer proxy error" error="dial tcp 10.199.30.115:6443: connect: connection refused"
Mar 07 11:24:29 server914sx.company.de k3s[170873]: time="2022-03-07T11:24:29.177260725+01:00" level=error msg="Remotedialer proxy error" error="websocket: close 1006 (abnormal closure): unexpected EOF"
Mar 16 15:57:35 server914sx.company.de k3s[170873]: time="2022-03-16T15:57:35.689846455+01:00" level=error msg="Remotedialer proxy error" error="read tcp 10.199.30.114:52434->10.199.30.115:6443: i/o timeout"

This does not seem to affect the clusters in any way, all nodes work just fine.
We think this indicates problems with our network (which might cause the database latencies), but don't understand why after a restart of k3s the warnings temporarily disappear.

0 replies

caroline-suse-rancher · 2023-06-07T22:47:59Z

caroline-suse-rancher
Jun 7, 2023
Collaborator

I'm going to convert this to a discussion - it seems like there are some remaining questions but no bug.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Clusters crash simultaneously #7684

{{title}}

Replies: 5 comments

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

Clusters crash simultaneously #7684

haskell91 Feb 16, 2022

Replies: 5 comments

brandond Feb 16, 2022 Collaborator

haskell91 Feb 21, 2022 Author

brandond Feb 22, 2022 Collaborator

haskell91 Mar 21, 2022 Author

caroline-suse-rancher Jun 7, 2023 Collaborator

haskell91
Feb 16, 2022

brandond
Feb 16, 2022
Collaborator

haskell91
Feb 21, 2022
Author

brandond
Feb 22, 2022
Collaborator

haskell91
Mar 21, 2022
Author

caroline-suse-rancher
Jun 7, 2023
Collaborator