Dit boek presenteert een rekenmethode om redundante NGS-contigs die door monteurs worden gegenereerd, weer te detecteren en te elimineren. De aanpak maakt gebruik van twee op Hashing gebaseerde technieken, een Bloom Filter om dubbele contigs te elimineren en een locatiegevoelige hash (LSH) om soortgelijke contigs te verwijderen. Aangezien een groot aantal contigs worden gegenereerd door verschillende assembleurs, vereisen deze benaderingen een aanzienlijke hoeveelheid computationele en personele middelen. Redundantievermindering vergemakkelijkt de verdere analyse van de gegevens en verkort de tijd die nodig is om de genomische assemblages af te werken en te genezen. De hybride assemblage van de GAGE-B dataset (8 bacteriën verdeeld over 12 opeenvolgende assemblages in Illumina HiSeq en MiSeq) werd uitgevoerd met de monteur SPAdes (De Bruijn Graph) en de monteur Fermi (OLC). De pijplijn werd toegepast op de resulterende contigs en de prestaties in vergelijking met andere soortgelijke tools zoals HS-BLASTN, Simplifier en CD-HIT. De voorgestelde toepassing kan aanvullende resultaten genereren en helpt om deze resultaten te verenigen.