redpanda-data · piyushredpanda · Jun 15, 2023 · Apr 27, 2023 · May 4, 2023 · Apr 28, 2023
@@ -179,7 +179,7 @@ ExternalProject_Add(fmt
 
 ExternalProject_Add(seastar
   GIT_REPOSITORY https://github.com/redpanda-data/seastar.git
-  GIT_TAG 777ad7c4c1e280c63877b80036a5b15fd0a6388a
+  GIT_TAG 6e869a2068ab27ca84ffbe0fe7f7f172fdcde01c
   INSTALL_DIR    @REDPANDA_DEPS_INSTALL_DIR@
   CMAKE_COMMAND ${CMAKE_COMMAND} -E env ${cmake_build_env} ${CMAKE_COMMAND}
   LIST_SEPARATOR |

diff --git a/src/v/cluster/tests/local_monitor_fixture.h b/src/v/cluster/tests/local_monitor_fixture.h
@@ -11,9 +11,11 @@
 
 #pragma once
 #include "cluster/node/local_monitor.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "storage/api.h"
 
 #include <seastar/core/sstring.hh>
+#include <seastar/util/log.hh>
 
 #include <string_view>
 

@@ -1881,6 +1881,19 @@ configuration::configuration()
       "exception is thrown instead.",
       {.needs_restart = needs_restart::no, .visibility = visibility::tunable},
       true)
+  , sampled_memory_profile(
+      *this,
+      "memory_enable_memory_sampling",
+      "If true, memory allocations will be sampled and tracked. A sampled live "
+      "set of allocations can then be retrieved from the Admin API. "
+      "Additionally, we will periodically log the top-n allocation sites",
+      {// Enabling/Disabling this dynamically doesn't make much sense as for the
+       // memory profile to be meaning full you'll want to have this on from the
+       // beginning. However, we still provide the option to be able to disable
+       // it dynamically in case something goes wrong
+       .needs_restart = needs_restart::no,
+       .visibility = visibility::tunable},
+      true)
   , enable_metrics_reporter(
       *this,
       "enable_metrics_reporter",

@@ -375,6 +375,7 @@ struct configuration final : public config_store {
 
     // memory related settings
     property<bool> memory_abort_on_alloc_failure;
+    property<bool> sampled_memory_profile;
 
     // metrics reporter
     property<bool> enable_metrics_reporter;

diff --git a/src/v/raft/tests/bootstrap_configuration_test.cc b/src/v/raft/tests/bootstrap_configuration_test.cc
@@ -16,6 +16,7 @@
 #include "raft/consensus_utils.h"
 #include "random/generators.h"
 #include "resource_mgmt/io_priority.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "storage/api.h"
 #include "storage/log.h"
 #include "storage/log_manager.h"
@@ -49,12 +50,16 @@ struct bootstrap_fixture : raft::simple_record_fixture {
               storage::with_cache::no,
               storage::make_sanitized_file_config());
         },
-        _feature_table) {
+        _feature_table,
+        _memory_sampling_service) {
         _feature_table.start().get();
         _feature_table
           .invoke_on_all(
             [](features::feature_table& f) { f.testing_activate_all(); })
           .get();
+        _memory_sampling_service
+          .start(std::ref(_test_logger), config::mock_binding<bool>(false))
+          .get();
         _storage.start().get();
         // ignore the get_log()
         (void)_storage.log_mgr()
@@ -81,10 +86,13 @@ struct bootstrap_fixture : raft::simple_record_fixture {
 
     ~bootstrap_fixture() {
         _storage.stop().get();
+        _memory_sampling_service.stop().get();
         _feature_table.stop().get();
     }
 
+    seastar::logger _test_logger{"bootstrap-test-logger"};
     ss::sharded<features::feature_table> _feature_table;
+    ss::sharded<memory_sampling> _memory_sampling_service;
     storage::api _storage;
     ss::abort_source _as;
 };

diff --git a/src/v/raft/tests/configuration_manager_test.cc b/src/v/raft/tests/configuration_manager_test.cc
@@ -16,6 +16,7 @@
 #include "raft/logger.h"
 #include "raft/types.h"
 #include "random/generators.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "storage/api.h"
 #include "storage/kvstore.h"
 #include "storage/log_manager.h"
@@ -25,6 +26,7 @@
 #include "units.h"
 
 #include <seastar/core/abort_source.hh>
+#include <seastar/util/log.hh>
 
 #include <boost/test/tools/old/interface.hpp>
 
@@ -51,7 +53,8 @@ struct config_manager_fixture {
               ss::default_priority_class(),
               storage::make_sanitized_file_config());
         },
-        _feature_table))
+        _feature_table,
+        _memory_sampling_service))
       , _logger(
           raft::group_id(1),
           model::ntp(model::ns("t"), model::topic("t"), model::partition_id(0)))
@@ -66,19 +69,25 @@ struct config_manager_fixture {
           .invoke_on_all(
             [](features::feature_table& f) { f.testing_activate_all(); })
           .get();
+        _memory_sampling_service
+          .start(std::ref(_test_logger), config::mock_binding<bool>(false))
+          .get();
         _storage.start().get0();
     }
 
     ss::sstring base_dir = "test_cfg_manager_"
                            + random_generators::gen_alphanum_string(6);
+    ss::logger _test_logger{"config-mgmr-test-logger"};
     ss::sharded<features::feature_table> _feature_table;
+    ss::sharded<memory_sampling> _memory_sampling_service;
     storage::api _storage;
     raft::ctx_log _logger;
     raft::configuration_manager _cfg_mgr;
 
     ~config_manager_fixture() {
-        _feature_table.stop().get();
         _storage.stop().get0();
+        _memory_sampling_service.stop().get();
+        _feature_table.stop().get();
     }
 
     raft::group_configuration random_configuration() {

diff --git a/src/v/raft/tests/foreign_entry_test.cc b/src/v/raft/tests/foreign_entry_test.cc
@@ -21,6 +21,7 @@
 #include "raft/types.h"
 #include "random/generators.h"
 #include "resource_mgmt/io_priority.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "storage/api.h"
 #include "storage/log.h"
 #include "storage/log_manager.h"
@@ -61,12 +62,16 @@ struct foreign_entry_fixture {
               ss::default_priority_class(),
               storage::make_sanitized_file_config());
         },
-        _feature_table) {
+        _feature_table,
+        _memory_sampling_service) {
         _feature_table.start().get();
         _feature_table
           .invoke_on_all(
             [](features::feature_table& f) { f.testing_activate_all(); })
           .get();
+        _memory_sampling_service
+          .start(std::ref(_test_logger), config::mock_binding<bool>(false))
+          .get();
         _storage.start().get();
         (void)_storage.log_mgr()
           .manage(storage::ntp_config(_ntp, "test.dir"))
@@ -136,10 +141,13 @@ struct foreign_entry_fixture {
     }
     ~foreign_entry_fixture() {
         _storage.stop().get();
+        _memory_sampling_service.stop().get();
         _feature_table.stop().get();
     }
     model::offset _base_offset{0};
+    ss::logger _test_logger{"foreign-test-logger"};
     ss::sharded<features::feature_table> _feature_table;
+    ss::sharded<memory_sampling> _memory_sampling_service;
     storage::api _storage;
     storage::log get_log() { return _storage.log_mgr().get(_ntp).value(); }
     model::ntp _ntp{

diff --git a/src/v/raft/tests/mux_state_machine_fixture.h b/src/v/raft/tests/mux_state_machine_fixture.h
@@ -19,6 +19,7 @@
 #include "raft/mux_state_machine.h"
 #include "raft/types.h"
 #include "random/generators.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "rpc/connection_cache.h"
 #include "storage/api.h"
 #include "storage/kvstore.h"
@@ -57,7 +58,8 @@ struct mux_state_machine_fixture {
           .start(
             [kv_conf]() { return kv_conf; },
             [this]() { return default_log_cfg(); },
-            std::ref(_feature_table))
+            std::ref(_feature_table),
+            std::ref(_memory_sampling_service))
           .get0();
         _storage.invoke_on_all(&storage::api::start).get0();
         _as.start().get();
@@ -74,6 +76,10 @@ struct mux_state_machine_fixture {
             [](features::feature_table& f) { f.testing_activate_all(); })
           .get();
 
+        _memory_sampling_service
+          .start(std::ref(_test_logger), config::mock_binding<bool>(false))
+          .get();
+
         _group_mgr
           .start(
             _self,
@@ -139,9 +145,10 @@ struct mux_state_machine_fixture {
             if (_raft) {
                 _raft.release();
             }
-            _connections.stop().get0();
-            _feature_table.stop().get0();
-            _storage.stop().get0();
+            _connections.stop().get();
+            _storage.stop().get();
+            _memory_sampling_service.stop().get();
+            _feature_table.stop().get();
             _as.stop().get();
         }
     }
@@ -189,11 +196,13 @@ struct mux_state_machine_fixture {
     model::ntp _ntp = model::ntp(
       model::ns("default"), model::topic("test"), model::partition_id(0));
 
+    ss::logger _test_logger{"mux-test-logger"};
     ss::sstring _data_dir;
     cluster::consensus_ptr _raft;
     ss::sharded<ss::abort_source> _as;
     ss::sharded<rpc::connection_cache> _connections;
     ss::sharded<storage::api> _storage;
+    ss::sharded<memory_sampling> _memory_sampling_service;
     ss::sharded<features::feature_table> _feature_table;
     ss::sharded<raft::group_manager> _group_mgr;
     ss::sharded<raft::coordinated_recovery_throttle> _recovery_throttle;

diff --git a/src/v/raft/tests/offset_translator_tests.cc b/src/v/raft/tests/offset_translator_tests.cc
@@ -10,6 +10,7 @@
 #include "model/fundamental.h"
 #include "raft/offset_translator.h"
 #include "random/generators.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "storage/api.h"
 #include "storage/fwd.h"
 #include "storage/kvstore.h"
@@ -50,11 +51,15 @@ struct base_fixture {
           .invoke_on_all(
             [](features::feature_table& f) { f.testing_activate_all(); })
           .get();
+        _memory_sampling_service
+          .start(std::ref(_test_logger), config::mock_binding<bool>(false))
+          .get();
         _api
           .start(
             [this]() { return make_kv_cfg(); },
             [this]() { return make_log_cfg(); },
-            std::ref(_feature_table))
+            std::ref(_feature_table),
+            std::ref(_memory_sampling_service))
           .get();
         _api.invoke_on_all(&storage::api::start).get();
     }
@@ -87,11 +92,14 @@ struct base_fixture {
     model::ntp test_ntp = model::ntp(
       model::ns("test"), model::topic("tp"), model::partition_id(0));
     ss::sstring _test_dir;
+    ss::logger _test_logger{"offset-test-logger"};
     ss::sharded<features::feature_table> _feature_table;
+    ss::sharded<memory_sampling> _memory_sampling_service;
     ss::sharded<storage::api> _api;
 
     ~base_fixture() {
         _api.stop().get();
+        _memory_sampling_service.stop().get();
         _feature_table.stop().get();
     }
 };

diff --git a/src/v/raft/tests/raft_group_fixture.h b/src/v/raft/tests/raft_group_fixture.h
@@ -26,6 +26,7 @@
 #include "raft/rpc_client_protocol.h"
 #include "raft/service.h"
 #include "random/generators.h"
+#include "resource_mgmt/memory_sampling.h"
 #include "rpc/backoff_policy.h"
 #include "rpc/connection_cache.h"
 #include "rpc/rpc_server.h"
@@ -130,7 +131,8 @@ struct raft_node {
                   ss::default_priority_class(),
                   storage::make_sanitized_file_config());
             },
-            std::ref(feature_table))
+            std::ref(feature_table),
+            std::ref(memory_sampling_service))
           .get();
         storage.invoke_on_all(&storage::api::start).get();
 
@@ -362,6 +364,7 @@ struct raft_node {
     consensus_ptr consensus;
     std::unique_ptr<raft::log_eviction_stm> _nop_stm;
     ss::sharded<features::feature_table> feature_table;
+    ss::sharded<memory_sampling> memory_sampling_service;
     ss::abort_source _as;
 };
 

@@ -205,6 +205,32 @@
                 }
             ]
         },
+        {
+            "path": "/v1/debug/sampled_memory_profile",
+            "operations": [
+                {
+                    "method": "GET",
+                    "summary": "Get the currently sampled live memory set for the specified or all shards",
+                    "nickname": "sampled_memory_profile",
+                    "produces": [
+                        "application/json"
+                    ],
+                    "type": "array",
+                    "items": {
+                        "type": "memory_profile"
+                    },
+                    "parameters": [
+                        {
+                            "name": "shard",
+                            "in": "query",
+                            "required": false,
+                            "allowMultiple": false,
+                            "type": "long"
+                        }
+                    ]
+                }
+            ]
+        },
         {
             "path": "/v1/debug/refresh_disk_health_info",
             "operations": [
@@ -497,6 +523,40 @@
                 }
             }
         },
+        "memory_profile": {
+            "id": "memory_profile",
+            "description": "Sampled memory profile of a shard",
+            "properties": {
+                "shard": {
+                    "type": "long",
+                    "description": "Id of the shard the profile is from"
+                },
+                "allocation_sites": {
+                    "type": "array",
+                    "items": {
+                        "type": "allocation_site"
+                    }
+                }
+            }
+        },
+        "allocation_site": {
+            "id": "allocation_site",
+            "description": "A single allocation site with backtrace, size and count",
+            "properties": {
+                "size": {
+                    "type": "long",
+                    "description": "Current bytes allocated at this allocation site (note this is the upscaled size and not the sampled one)"
+                },
+                "count": {
+                    "type": "long",
+                    "description": "Live allocations at this site"
+                },
+                "backtrace": {
+                    "type": "string",
+                    "description": "Backtrace of this allocation site"
+                }
+            }
+        },
         "controller_status": {
             "id": "controller_status",
             "description": "Controller status",