singer-io · namrata270998 · Feb 14, 2022 · Nov 10, 2021 · Nov 10, 2021 · Nov 11, 2021
diff --git a/.circleci/config.yml b/.circleci/config.yml
@@ -1,8 +1,11 @@
-version: 2
+version: 2.1
+orbs:
+  slack: circleci/slack@3.4.2
+
 jobs:
   build:
     docker:
-      - image: 218546966473.dkr.ecr.us-east-1.amazonaws.com/circle-ci:tap-tester-v4
+      - image: 218546966473.dkr.ecr.us-east-1.amazonaws.com/circle-ci:stitch-tap-tester
       - image: amazon/dynamodb-local
         entrypoint: ["java", "-Xmx1G", "-jar", "DynamoDBLocal.jar"]
     steps:
@@ -19,19 +22,26 @@ jobs:
           command: |
             source /usr/local/share/virtualenvs/tap-dynamodb/bin/activate
             make lint
+      - run:
+          name: 'Unit Tests'
+          command: |
+            source /usr/local/share/virtualenvs/tap-dynamodb/bin/activate
+            pip install nose coverage
+            nosetests --with-coverage --cover-erase --cover-package=tap_dynamodb --cover-html-dir=htmlcov tests/unittests
+            coverage html
+      - store_test_results:
+          path: test_output/report.xml
+      - store_artifacts:
+          path: htmlcov
       - run:
           name: 'Tap Tester'
           command: |
             aws s3 cp s3://com-stitchdata-dev-deployment-assets/environments/tap-tester/sandbox tap-tester.env
             source tap-tester.env
             source /usr/local/share/virtualenvs/tap-tester/bin/activate
-            run-test --tap=tap-dynamodb \
-                     --target=target-stitch \
-                     --orchestrator=stitch-orchestrator \
-                     --email=harrison+sandboxtest@stitchdata.com \
-                     --password=$SANDBOX_PASSWORD \
-                     --client-id=50 \
-                     tests
+            run-test --tap=tap-dynamodb tests
+      - slack/notify-on-failure:
+          only_for_branches: master
 workflows:
   version: 2
   commit:

diff --git a/tap_dynamodb/deserialize.py b/tap_dynamodb/deserialize.py
@@ -58,23 +58,61 @@ def _apply_projection(self, record, breadcrumb, output):
                 breadcrumb_key = breadcrumb[0].split('[')[0]
                 index = int(breadcrumb[0].split('[')[1].split(']')[0])
                 if output.get(breadcrumb_key):
-                    output[breadcrumb_key].append(record[breadcrumb_key][index])
+                    # record: {'Artist': 'No One You Know5', 'metadata': ['test1']}
+                    # main breadcrumb = [['metadata[0]'], ['metadata[1]']]
+                    # current breadcrumb = ['metadata[1]']
+                    # current output = {'metadata': ['test1']}
+                    # expected output = {'metadata': ['test1']}
+                    #       as "metadata" has only 1 item and the current breadcrumb is expecting 2nd item
+
+                    # only prepare output if the list field contains data at that index position in record
+                    if len(record.get(breadcrumb_key)) > index:
+                        output[breadcrumb_key].append(record[breadcrumb_key][index])
                 else:
-                    output[breadcrumb_key] = [record[breadcrumb_key][index]]
+                    # record: {'Artist': 'No One You Know5'}
+                    # main breadcrumb = [['metadata[0]']]
+                    # current breadcrumb = ['metadata[0]']
+                    # current output = {}
+                    # expected output = {'metadata': []}
+                    #       as "metadata" does not have any items and the current breadcrumb is expecting 1st item
 
+                    output[breadcrumb_key] = []
+                    # only prepare output if the list field contains data at that index position in record
+                    if record.get(breadcrumb_key) and len(record.get(breadcrumb_key)) > index:
+                        output[breadcrumb_key].append(record[breadcrumb_key][index])
             else:
                 output[breadcrumb[0]] = record.get(breadcrumb[0])
         else:
             if '[' in breadcrumb[0]:
                 breadcrumb_key = breadcrumb[0].split('[')[0]
                 index = int(breadcrumb[0].split('[')[1].split(']')[0])
-                if output.get(breadcrumb_key) is None:
+                if not output.get(breadcrumb_key):
-                if not output.get(breadcrumb_key):
+                if breadcrumb_key not in output:
-                if not output.get(breadcrumb_key):
+                if breadcrumb_key not in output:
                     output[breadcrumb_key] = [{}]
-                self._apply_projection(record[breadcrumb_key][index], breadcrumb[1:], output[breadcrumb_key][0])
+
+                # record: {'Artist': 'No One You Know5'}
+                # main breadcrumb = [['metadata[0]', 'Age']]
+                # current breadcrumb = ['metadata[0]', 'Age']
+                # current output = {'metadata': [{}]}
+                # expected output = {'metadata': [{}]}
+                #       as "metadata" is not present and the current breadcrumb is expecting 1st item and which is a parent
+
+                # only prepare output if the list field contains data at that index position in record
+                if record.get(breadcrumb_key) and len(record.get(breadcrumb_key)) > index:
+                    self._apply_projection(record[breadcrumb_key][index], breadcrumb[1:], output[breadcrumb_key][0])
             else:
                 if output.get(breadcrumb[0]) is None:
                     output[breadcrumb[0]] = {}
-                self._apply_projection(record[breadcrumb[0]], breadcrumb[1:], output[breadcrumb[0]])
+
+                # record: {'Artist': 'No One You Know5'}
+                # main breadcrumb = [['metadata', 'inner_metadata']]
+                # current breadcrumb = ['metadata', 'inner_metadata']
+                # current output = {'metadata': {}}
+                # expected output = {'metadata': {}}
+                #       as "metadata" is not present and the current breadcrumb is expecting it as a parent
+
+                # keep empty dict if the data is not found in the record
+                if record.get(breadcrumb[0]):
-                if record.get(breadcrumb[0]):
+                if breadcrumb[0] in record:
-                if record.get(breadcrumb[0]):
+                if breadcrumb[0] in record:
+                    self._apply_projection(record.get(breadcrumb[0], {}), breadcrumb[1:], output[breadcrumb[0]])
 
     def apply_projection(self, record, projections):
         output = {}

diff --git a/tests/test_dynamodb_discovery.py b/tests/test_dynamodb_discovery.py
@@ -1,6 +1,5 @@
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from base import TestDynamoDBBase
 
 
@@ -53,6 +52,3 @@ def name():
 
     def test_run(self):
         self.pre_sync_test()
-
-
-SCENARIOS.add(DynamoDBDiscovery)
diff --git a/tests/test_dynamodb_full_table_interruptible_sync.py b/tests/test_dynamodb_full_table_interruptible_sync.py
@@ -3,7 +3,6 @@
 
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from tap_tester import connections
 from tap_tester import menagerie
 from tap_tester import runner
@@ -129,6 +128,3 @@ def test_run(self):
             self.assertIsNone(state['bookmarks'][table_name].get('last_evaluated_key'))
 
             self.assertTrue(state['bookmarks'][table_name].get('initial_full_table_complete', False))
-
-
-SCENARIOS.add(DynamoDBFullTableInterruptible)
diff --git a/tests/test_dynamodb_full_table_sync.py b/tests/test_dynamodb_full_table_sync.py
@@ -4,7 +4,6 @@
 
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from tap_tester import connections
 from tap_tester import menagerie
 from tap_tester import runner
@@ -108,5 +107,3 @@ def test_run(self):
             # assert that there is a version bookmark in state
             first_versions[table_name] = state['bookmarks'][table_name]['version']
             self.assertIsNotNone(first_versions[table_name])
-
-SCENARIOS.add(DynamoDBFullTable)
diff --git a/tests/test_dynamodb_log_based.py b/tests/test_dynamodb_log_based.py
@@ -2,7 +2,6 @@
 
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from tap_tester import connections
 from tap_tester import menagerie
 from tap_tester import runner
@@ -143,6 +142,3 @@ def test_run(self):
             self.assertEqual(31, len(stream['messages']))
 
         state = menagerie.get_state(conn_id)
-
-
-SCENARIOS.add(DynamoDBLogBased)
diff --git a/tests/test_dynamodb_log_based_interruptible.py b/tests/test_dynamodb_log_based_interruptible.py
@@ -2,7 +2,6 @@
 
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from tap_tester import connections
 from tap_tester import menagerie
 from tap_tester import runner
@@ -202,7 +201,3 @@ def first_sync_test(self, table_configs, conn_id):
             # as the full table sync
             state['bookmarks'][table_name].pop('finished_shards')
             menagerie.set_state(conn_id, state, version=state_version)
-
-
-
-SCENARIOS.add(DynamoDBLogBased)
diff --git a/tests/test_dynamodb_log_based_parent_child_data.py b/tests/test_dynamodb_log_based_parent_child_data.py
@@ -0,0 +1,102 @@
+from boto3.dynamodb.types import TypeSerializer
+
+from tap_tester import connections
+from tap_tester import menagerie
+from tap_tester import runner
+
+from base import TestDynamoDBBase
+
+class DynamoDBLogBasedParentChildData(TestDynamoDBBase):
+    """
+        Test case for verifying:
+        - The tap does not break when the parent data is not found and the user is requesting for child data
+        - The tap does not break when the data a specific position is not found in the record
+    """
+
+    # expected table configs
+    def expected_table_config(self):
+        return [
+            {
+                'TableName': 'simple_table_1',
+                'HashKey': 'int_id',
+                'HashType': 'N',
+                'generator': self.generate_items,
+                'num_rows': 10,
+                'ProjectionExpression': 'int_id, map_field.map_entry_1, test_list_1[0], test_list_2[0], test_list_2[1], test_list_3[0].test_field',
+                'top_level_keys': {'int_id', 'map_field'},
+                'nested_map_keys': {'map_field': {'map_entry_1'}},
+            }
+        ]
+
+    # send desired data for testing
+    def generate_items(self, num_items, start_key=0):
+        serializer = TypeSerializer()
+        for i in range(start_key, start_key + num_items):
+            record = {
+                'int_id': i,
+                'string_field': self.random_string_generator(),
+                'test_list_2': ['list_2_data']
+            }
+            yield serializer.serialize(record)
+
+    @staticmethod
+    def name():
+        return "tap_tester_dynamodb_parent_child_data"
+
+    def test_run(self):
+        (table_configs, conn_id, expected_streams) = self.pre_sync_test()
+
+        # Select 'simple_table_1' stream and add replication method and projection
+        found_catalogs = menagerie.get_catalogs(conn_id)
+        for stream_catalog in found_catalogs:
+            annotated_schema = menagerie.get_annotated_schema(conn_id, stream_catalog['stream_id'])
+            additional_md = [
+                {
+                    "breadcrumb": [],
+                    "metadata": {
+                        'replication-method': 'LOG_BASED',
+                        'tap-mongodb.projection': table_configs[0]['ProjectionExpression']
+                    }
+                }
+            ]
+            connections.select_catalog_and_fields_via_metadata(conn_id,
+                                                               stream_catalog,
+                                                               annotated_schema,
+                                                               additional_md)
+
+        # diable stream to force shard to close
+        self.disableStreams(expected_streams)
+        # run sync mode 1st time as for the 1st time it sync in FULL_TABLE mode
+        sync_job_name = runner.run_sync_mode(self, conn_id)
+
+        exit_status = menagerie.get_exit_status(conn_id, sync_job_name)
+        menagerie.verify_sync_exit_status(self, exit_status, sync_job_name)
+
+        # collect state file
+        state = menagerie.get_state(conn_id)
+        state_version = menagerie.get_state_version(conn_id)
+
+        # delete 'finished_shards' for every streams from the state file as we want to run 2nd sync
+        for config in table_configs:
+            table_name = config['TableName']
+            del state['bookmarks'][table_name]['finished_shards']
+        menagerie.set_state(conn_id, state, version=state_version)
+
+        # run the sync mode 2nd time, noow it will run in LOG_BASED mode
+        sync_job_name = runner.run_sync_mode(self, conn_id)
+
+        # get data
+        messages_by_stream = runner.get_records_from_target_output()
+
+        for stream in expected_streams:
+            messages = messages_by_stream.get(stream).get('messages')
+            records = [message.get('data') for message in messages if message.get('action') == 'upsert']
+            for record in records:
+
+                # verify that we get 'None' for child data when parent data is not found
+                self.assertIsNone(record.get('map_field').get('map_entry_1'))
+                # verify that we only get the available data if the data at a particular index is not found
+                self.assertEquals(record.get('test_list_1'), [])
+                self.assertEquals(record.get('test_list_2'), ['list_2_data'])
+                # verify that we got empty map if the parent data at a particular index is not found for child data
+                self.assertEquals(record.get('test_list_3'), [{}])
diff --git a/tests/test_dynamodb_log_based_projections.py b/tests/test_dynamodb_log_based_projections.py
@@ -3,7 +3,6 @@
 
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from tap_tester import connections
 from tap_tester import menagerie
 from tap_tester import runner
@@ -205,6 +204,3 @@ def first_sync_test(self, table_configs, conn_id, expected_streams):
                         for list_key in config['top_level_list_keys']:
                             self.assertTrue(isinstance(message['data'][list_key], list))
                         self.assertEqual(config['nested_map_keys']['map_field'], {*message['data']['map_field'].keys()})
-
-
-SCENARIOS.add(DynamoDBLogBasedProjections)
diff --git a/tests/test_dynamodb_projections.py b/tests/test_dynamodb_projections.py
@@ -3,7 +3,6 @@
 
 from boto3.dynamodb.types import TypeSerializer
 
-from tap_tester.scenario import (SCENARIOS)
 from tap_tester import connections
 from tap_tester import menagerie
 from tap_tester import runner
@@ -134,6 +133,3 @@ def test_run(self):
                         for list_key in config['top_level_list_keys']:
                             self.assertTrue(isinstance(message['data'][list_key], list))
                         self.assertEqual(config['nested_map_keys']['map_field'], {*message['data']['map_field'].keys()})
-
-
-SCENARIOS.add(DynamoDBProjections)