Bazaar

Merge lp:~spiv/bzr/insert-stream-check-chk-root into lp:bzr/2.0

insert-stream-check-chk-root
Merge into 2.0

Proposed by Andrew Bennetts on 2009-09-02

Status:

Merged

Merged at revision:

not available

Proposed branch:

lp:~spiv/bzr/insert-stream-check-chk-root

Merge into:

lp:bzr/2.0

Diff against target:

408 lines

To merge this branch:

bzr merge lp:~spiv/bzr/insert-stream-check-chk-root

Related bugs:

Bug #406687: insert_stream doesn't check references are satisfied	Critical	Fix Released
Bug #423506: commit_write_group should ensure inventories and their chk roots are present for new revisions.	Critical	Fix Released

Link a bug report

Reviewer	Review Type	Date Requested	Status
Robert Collins (community)		2009-09-02	Approve on 2009-09-03
Review via email: mp+11033@code.launchpad.net

Revision history for this message

Andrew Bennetts (spiv) wrote on 2009-09-02:

This is a partial fix for bug 406687, and an incremental step towards a full fix. It adds a check to RepositoryPackCollection._commit_write_group that verifies every revision added by that write group has a corresponding inventory, and that for every corresponding inventory plus any present parent inventories that the chk root entries are present — and presence in a fallback does not count. At the same time ghost parent inventories are still allowed. This fix is sufficient at least to catch some bugs we had in the past where no chk records were transferred at all in some cases.

(The full fix, which I am working on, will involve checking that all relevant chk records are present, and that the text versions named by those relevant records are also present.)

I experimented with not requiring chk root records in a stacked repository for inventories that have not changed, because in principle they aren't required (just comparing the key names is enough to show that the delta between those revs is empty), but bzr currently fails on such a repository, so allowing this would allow data incompatible with e.g. 2.0rc1, which I think is undesirable.

I am a little worried about the possible performance impact of this change. I don't think the code is particularly wasteful (except perhaps in holding collections of keys that are larger or more long-lived than strictly necessary), but it is fundamentally more work to perform on every 2a repository write.

Revision history for this message

Robert Collins (lifeless) wrote on 2009-09-03:

tweak

I think that it would be clearer to use method overriding to handle pack vs chk rather than a check on self in the pack code: the bulk of the method is chk specific.

[though pack repos want their inventories to, so that suggests either duplicate, or missing coverage]

review: Approve

Preview Diff

[H/L] Next/Prev Comment, [J/K] Next/Prev File, [N/P] Next/Prev Hunk

Subscribers

People subscribed via source and target branches

to all changes:

Alexander Belchenko

Andrew Bennetts

Bazaar Codereview Subscribers

Benoit Pierre

Martin Pool

Matt Nordhoff

bzr PQM

pascalprost

Bazaar

Merge lp:~spiv/bzr/insert-stream-check-chk-root into lp:bzr/2.0

Commit message

Description of the change

Preview Diff

Subscribers

 === modified file 'bzrlib/groupcompress.py'
 --- bzrlib/groupcompress.py	2009-08-26 16:47:51 +0000
 +++ bzrlib/groupcompress.py	2009-09-02 03:35:25 +0000
@@ -1714,7 +1714,7 @@
      def __init__(self, graph_index, is_locked, parents=True,
          add_callback=None, track_external_parent_refs=False,
--        inconsistency_fatal=True):
++        inconsistency_fatal=True, track_new_keys=False):
          """Construct a _GCGraphIndex on a graph_index.
          :param graph_index: An implementation of bzrlib.index.GraphIndex.
@@ -1740,7 +1740,8 @@
          self._is_locked = is_locked
          self._inconsistency_fatal = inconsistency_fatal
          if track_external_parent_refs:
--            self._key_dependencies = knit._KeyRefs()
++            self._key_dependencies = knit._KeyRefs(
++                track_new_keys=track_new_keys)
          else:
              self._key_dependencies = None
@@ -1800,10 +1801,14 @@
                      result.append((key, value))
              records = result
          key_dependencies = self._key_dependencies
--        if key_dependencies is not None and self._parents:
--            for key, value, refs in records:
--                parents = refs[0]
--                key_dependencies.add_references(key, parents)
++        if key_dependencies is not None:
++            if self._parents:
++                for key, value, refs in records:
++                    parents = refs[0]
++                    key_dependencies.add_references(key, parents)
++            else:
++                for key, value, refs in records:
++                    new_keys.add_key(key)
          self._add_callback(records)
      def _check_read(self):
@@ -1866,7 +1871,7 @@
          """Return the keys of missing parents."""
          # Copied from _KnitGraphIndex.get_missing_parents
          # We may have false positives, so filter those out.
--        self._key_dependencies.add_keys(
++        self._key_dependencies.satisfy_refs_for_keys(
              self.get_parent_map(self._key_dependencies.get_unsatisfied_refs()))
          return frozenset(self._key_dependencies.get_unsatisfied_refs())
@@ -1926,17 +1931,17 @@
          This allows this _GCGraphIndex to keep track of any missing
          compression parents we may want to have filled in to make those
--        indices valid.
++        indices valid.  It also allows _GCGraphIndex to track any new keys.
          :param graph_index: A GraphIndex
          """
--        if self._key_dependencies is not None:
--            # Add parent refs from graph_index (and discard parent refs that
--            # the graph_index has).
--            add_refs = self._key_dependencies.add_references
--            for node in graph_index.iter_all_entries():
--                add_refs(node[1], node[3][0])
--
++        key_dependencies = self._key_dependencies
++        if key_dependencies is None:
++            return
++        for node in graph_index.iter_all_entries():
++            # Add parent refs from graph_index (and discard parent refs
++            # that the graph_index has).
++            key_dependencies.add_references(node[1], node[3][0])
  from bzrlib._groupcompress_py import (
 === modified file 'bzrlib/knit.py'
 --- bzrlib/knit.py	2009-08-26 16:44:27 +0000
 +++ bzrlib/knit.py	2009-09-02 03:35:25 +0000
@@ -2777,9 +2777,19 @@
  class _KeyRefs(object):
--    def __init__(self):
++    def __init__(self, track_new_keys=False):
          # dict mapping 'key' to 'set of keys referring to that key'
          self.refs = {}
++        if track_new_keys:
++            self.new_keys = set()
++        else:
++            self.new_keys = None
++
++    def clear(self):
++        if self.refs:
++            self.refs.clear()
++        if self.new_keys:
++            self.new_keys.clear()
      def add_references(self, key, refs):
          # Record the new references
@@ -2792,19 +2802,28 @@
          # Discard references satisfied by the new key
          self.add_key(key)
++    def get_new_keys(self):
++        return self.new_keys
++
      def get_unsatisfied_refs(self):
          return self.refs.iterkeys()
--    def add_key(self, key):
++    def _satisfy_refs_for_key(self, key):
          try:
              del self.refs[key]
          except KeyError:
              # No keys depended on this key.  That's ok.
              pass
--    def add_keys(self, keys):
++    def add_key(self, key):
++        # satisfy refs for key, and remember that we've seen this key.
++        self._satisfy_refs_for_key(key)
++        if self.new_keys is not None:
++            self.new_keys.add(key)
++
++    def satisfy_refs_for_keys(self, keys):
          for key in keys:
--            self.add_key(key)
++            self._satisfy_refs_for_key(key)
      def get_referrers(self):
          result = set()
@@ -2972,7 +2991,7 @@
          # If updating this, you should also update
          # groupcompress._GCGraphIndex.get_missing_parents
          # We may have false positives, so filter those out.
--        self._key_dependencies.add_keys(
++        self._key_dependencies.satisfy_refs_for_keys(
              self.get_parent_map(self._key_dependencies.get_unsatisfied_refs()))
          return frozenset(self._key_dependencies.get_unsatisfied_refs())
 === modified file 'bzrlib/repofmt/groupcompress_repo.py'
 --- bzrlib/repofmt/groupcompress_repo.py	2009-08-24 19:34:13 +0000
 +++ bzrlib/repofmt/groupcompress_repo.py	2009-09-02 03:35:25 +0000
@@ -651,7 +651,7 @@
              _GCGraphIndex(self._pack_collection.revision_index.combined_index,
                  add_callback=self._pack_collection.revision_index.add_callback,
                  parents=True, is_locked=self.is_locked,
--                track_external_parent_refs=True),
++                track_external_parent_refs=True, track_new_keys=True),
              access=self._pack_collection.revision_index.data_access,
              delta=False)
          self.signatures = GroupCompressVersionedFiles(
 === modified file 'bzrlib/repofmt/pack_repo.py'
 --- bzrlib/repofmt/pack_repo.py	2009-08-14 11:11:29 +0000
 +++ bzrlib/repofmt/pack_repo.py	2009-09-02 03:35:25 +0000
@@ -2063,6 +2063,53 @@
              self._remove_pack_indices(resumed_pack)
          del self._resumed_packs[:]
++    def _check_new_inventories(self):
++        """Detect missing inventories or chk root entries for the new revisions
++        in this write group.
++
++        :returns: set of missing keys.  Note that not every missing key is
++            guaranteed to be reported.
++        """
++        if getattr(self.repo, 'chk_bytes', None) is None:
++            return set()
++        # Ensure that all revisions added in this write group have:
++        #   - corresponding inventories,
++        #   - chk root entries for those inventories,
++        #   - and any present parent inventories have their chk root
++        #     entries too.
++        # And all this should be independent of any fallback repository.
++        key_deps = self.repo.revisions._index._key_dependencies
++        new_revisions_keys = key_deps.get_new_keys()
++        no_fallback_inv_index = self.repo.inventories._index
++        no_fallback_chk_bytes_index = self.repo.chk_bytes._index
++        inv_parent_map = no_fallback_inv_index.get_parent_map(
++            new_revisions_keys)
++        # Are any inventories for corresponding to the new revisions missing?
++        corresponding_invs = set(inv_parent_map)
++        missing_corresponding = set(new_revisions_keys)
++        missing_corresponding.difference_update(corresponding_invs)
++        if missing_corresponding:
++            return [('inventories', key) for key in missing_corresponding]
++        # Are any chk root entries missing for any inventories?  This includes
++        # any present parent inventories, which may be used when calculating
++        # deltas for streaming.
++        all_inv_keys = set(corresponding_invs)
++        for parent_inv_keys in inv_parent_map.itervalues():
++            all_inv_keys.update(parent_inv_keys)
++        # Filter out ghost parents.
++        all_inv_keys.intersection_update(
++            no_fallback_inv_index.get_parent_map(all_inv_keys))
++        all_missing = set()
++        inv_ids = [key[-1] for key in all_inv_keys]
++        for inv in self.repo.iter_inventories(inv_ids, 'unordered'):
++            root_keys = set([inv.id_to_entry.key()])
++            if inv.parent_id_basename_to_file_id is not None:
++                root_keys.add(inv.parent_id_basename_to_file_id.key())
++            present = no_fallback_chk_bytes_index.get_parent_map(root_keys)
++            missing = root_keys.difference(present)
++            all_missing.update([('chk_bytes',) + key for key in missing])
++        return all_missing
++
      def _commit_write_group(self):
          all_missing = set()
          for prefix, versioned_file in (
@@ -2073,6 +2120,7 @@
                  ):
              missing = versioned_file.get_missing_compression_parent_keys()
              all_missing.update([(prefix,) + key for key in missing])
++        all_missing.update(self._check_new_inventories())
          if all_missing:
              raise errors.BzrCheckError(
                  "Repository %s has missing compression parent(s) %r "
@@ -2222,7 +2270,7 @@
                      % (self._format, self.bzrdir.transport.base))
      def _abort_write_group(self):
--        self.revisions._index._key_dependencies.refs.clear()
++        self.revisions._index._key_dependencies.clear()
          self._pack_collection._abort_write_group()
      def _get_source(self, to_format):
@@ -2242,13 +2290,14 @@
          self._pack_collection._start_write_group()
      def _commit_write_group(self):
--        self.revisions._index._key_dependencies.refs.clear()
--        return self._pack_collection._commit_write_group()
++        hint = self._pack_collection._commit_write_group()
++        self.revisions._index._key_dependencies.clear()
++        return hint
      def suspend_write_group(self):
          # XXX check self._write_group is self.get_transaction()?
          tokens = self._pack_collection._suspend_write_group()
--        self.revisions._index._key_dependencies.refs.clear()
++        self.revisions._index._key_dependencies.clear()
          self._write_group = None
          return tokens
 === modified file 'bzrlib/repository.py'
 --- bzrlib/repository.py	2009-08-30 22:02:45 +0000
 +++ bzrlib/repository.py	2009-09-02 03:35:25 +0000
@@ -1604,7 +1604,7 @@
          # but at the moment we're only checking for texts referenced by
          # inventories at the graph's edge.
          key_deps = self.revisions._index._key_dependencies
--        key_deps.add_keys(present_inventories)
++        key_deps.satisfy_refs_for_keys(present_inventories)
          referrers = frozenset(r[0] for r in key_deps.get_referrers())
          file_ids = self.fileids_altered_by_revision_ids(referrers)
          missing_texts = set()
 === modified file 'bzrlib/tests/per_repository/test_write_group.py'
 --- bzrlib/tests/per_repository/test_write_group.py	2009-08-17 04:18:57 +0000
 +++ bzrlib/tests/per_repository/test_write_group.py	2009-09-02 03:35:25 +0000
@@ -361,6 +361,143 @@
          sink.insert_stream((), repo._format, tokens)
          self.assertEqual([True], call_log)
++    def test_missing_chk_root_for_inventory(self):
++        """commit_write_group fails with BzrCheckError when the chk root record
++        for a new inventory is missing.
++        """
++        builder = self.make_branch_builder('simple-branch')
++        builder.build_snapshot('A-id', None, [
++            ('add', ('', 'root-id', 'directory', None)),
++            ('add', ('file', 'file-id', 'file', 'content\n'))])
++        b = builder.get_branch()
++        if not b.repository._format.supports_chks:
++            raise TestNotApplicable('requires repository with chk_bytes')
++        b.lock_read()
++        self.addCleanup(b.unlock)
++        repo = self.make_repository('damaged-repo')
++        repo.lock_write()
++        repo.start_write_group()
++        # Now, add the objects manually
++        text_keys = [('file-id', 'A-id'), ('root-id', 'A-id')]
++        # Directly add the texts, inventory, and revision object for 'A-id' --
++        # but don't add the chk_bytes.
++        src_repo = b.repository
++        repo.texts.insert_record_stream(src_repo.texts.get_record_stream(
++            text_keys, 'unordered', True))
++        repo.inventories.insert_record_stream(
++            src_repo.inventories.get_record_stream(
++                [('A-id',)], 'unordered', True))
++        repo.revisions.insert_record_stream(
++            src_repo.revisions.get_record_stream(
++                [('A-id',)], 'unordered', True))
++        # Make sure the presence of the missing data in a fallback does not
++        # avoid the error.
++        repo.add_fallback_repository(b.repository)
++        self.assertRaises(errors.BzrCheckError, repo.commit_write_group)
++        reopened_repo = self.reopen_repo_and_resume_write_group(repo)
++        self.assertRaises(
++            errors.BzrCheckError, reopened_repo.commit_write_group)
++        reopened_repo.abort_write_group()
++
++    def test_missing_chk_root_for_unchanged_inventory(self):
++        """commit_write_group fails with BzrCheckError when the chk root record
++        for a new inventory is missing, even if the parent inventory is present
++        and has identical content (i.e. the same chk root).
++
++        A stacked repository containing only a revision with an identical
++        inventory to its parent will still have the chk root records for those
++        inventories.
++
++        (In principle the chk records are unnecessary in this case, but in
++        practice bzr 2.0rc1 (at least) expects to find them.)
++        """
++        # Make a branch where the last two revisions have identical
++        # inventories.
++        builder = self.make_branch_builder('simple-branch')
++        builder.build_snapshot('A-id', None, [
++            ('add', ('', 'root-id', 'directory', None)),
++            ('add', ('file', 'file-id', 'file', 'content\n'))])
++        builder.build_snapshot('B-id', None, [])
++        builder.build_snapshot('C-id', None, [])
++        b = builder.get_branch()
++        if not b.repository._format.supports_chks:
++            raise TestNotApplicable('requires repository with chk_bytes')
++        b.lock_read()
++        self.addCleanup(b.unlock)
++        # check our setup: B-id and C-id should have identical chk root keys.
++        inv_b = b.repository.get_inventory('B-id')
++        inv_c = b.repository.get_inventory('C-id')
++        self.assertEqual(inv_b.id_to_entry.key(), inv_c.id_to_entry.key())
++        # Now, manually insert objects for a stacked repo with only revision
++        # C-id:
++        # We need ('revisions', 'C-id'), ('inventories', 'C-id'),
++        # ('inventories', 'B-id'), and the corresponding chk roots for those
++        # inventories.
++        repo = self.make_repository('damaged-repo')
++        repo.lock_write()
++        repo.start_write_group()
++        src_repo = b.repository
++        repo.inventories.insert_record_stream(
++            src_repo.inventories.get_record_stream(
++                [('B-id',), ('C-id',)], 'unordered', True))
++        repo.revisions.insert_record_stream(
++            src_repo.revisions.get_record_stream(
++                [('C-id',)], 'unordered', True))
++        # Make sure the presence of the missing data in a fallback does not
++        # avoid the error.
++        repo.add_fallback_repository(b.repository)
++        self.assertRaises(errors.BzrCheckError, repo.commit_write_group)
++        reopened_repo = self.reopen_repo_and_resume_write_group(repo)
++        self.assertRaises(
++            errors.BzrCheckError, reopened_repo.commit_write_group)
++        reopened_repo.abort_write_group()
++
++    def test_missing_chk_root_for_parent_inventory(self):
++        """commit_write_group fails with BzrCheckError when the chk root record
++        for a parent inventory of a new revision is missing.
++        """
++        builder = self.make_branch_builder('simple-branch')
++        builder.build_snapshot('A-id', None, [
++            ('add', ('', 'root-id', 'directory', None)),
++            ('add', ('file', 'file-id', 'file', 'content\n'))])
++        builder.build_snapshot('B-id', None, [])
++        builder.build_snapshot('C-id', None, [
++            ('modify', ('file-id', 'new-content'))])
++        b = builder.get_branch()
++        if not b.repository._format.supports_chks:
++            raise TestNotApplicable('requires repository with chk_bytes')
++        b.lock_read()
++        self.addCleanup(b.unlock)
++        # Now, manually insert objects for a stacked repo with only revision
++        # C-id, *except* the chk root entry for the parent inventory.
++        # We need ('revisions', 'C-id'), ('inventories', 'C-id'),
++        # ('inventories', 'B-id'), and the corresponding chk roots for those
++        # inventories.
++        inv_c = b.repository.get_inventory('C-id')
++        chk_keys_for_c_only = [
++            inv_c.id_to_entry.key(), inv_c.parent_id_basename_to_file_id.key()]
++        repo = self.make_repository('damaged-repo')
++        repo.lock_write()
++        repo.start_write_group()
++        src_repo = b.repository
++        repo.chk_bytes.insert_record_stream(
++            src_repo.chk_bytes.get_record_stream(
++                chk_keys_for_c_only, 'unordered', True))
++        repo.inventories.insert_record_stream(
++            src_repo.inventories.get_record_stream(
++                [('B-id',), ('C-id',)], 'unordered', True))
++        repo.revisions.insert_record_stream(
++            src_repo.revisions.get_record_stream(
++                [('C-id',)], 'unordered', True))
++        # Make sure the presence of the missing data in a fallback does not
++        # avoid the error.
++        repo.add_fallback_repository(b.repository)
++        self.assertRaises(errors.BzrCheckError, repo.commit_write_group)
++        reopened_repo = self.reopen_repo_and_resume_write_group(repo)
++        self.assertRaises(
++            errors.BzrCheckError, reopened_repo.commit_write_group)
++        reopened_repo.abort_write_group()
++
  class TestResumeableWriteGroup(TestCaseWithRepository):