Data Prep Kit Examples

About

bit.ly/dpk-examples

Sujee Maniyam (AI Engineer and Developer Advocate)
sujee@node51.com • Portfolio

Introducing Data Prep Kit (DPK)

Whether you're performing RAG (Retrieval-Augmented Generation) or fine-tuning a model, a significant portion of your time will be dedicated to cleaning (de-duping, removing markups, etc.) and shaping the data.

Data Prep Kit can help you with wrangling data.

Noteworthy features:

de-duping documents (exact dedupe and fuzzy dedupe)
can handle documents and code
extract text from PDFs
language detection (spoken languages and programming languages)
malware detection
document quality checking
tokenizing and chunking
generating embeddings

Getting Ready

Getting Ready guide

Events

Data Prep Kit workshop
2024-10-21: Workshop @ IBM Tech XChange , Las Vegas, NV
2024-09-21: Hands on RAG workshop @ Data Riders meetup - Hacker Dojo, Mountain View, CA
2024-08-08: Open Source AI Demo Nigh, San Francisco, CA

How to Run the Code

Some notebooks can be run on Google colab.

But it is recommended you setup local python dev environment.

Instructions for setting up dev environment

Labs

Data Prep Kit Examples

➡️ Data prep kit demos - Get to know data prep kit features

Milvus - Vector Database

Milvus is a popular vector database that is open source

➡️ A quick start of Milvus - Run an embedded milvus

➡️ Vector search of movie plots using Milvus - load movie data, index it with embeddings, upload the data into milvus and run semantic queries

RAG Pipeline

➡️ End to end RAG

Name		Name	Last commit message	Last commit date
Latest commit History 74 Commits
data		data
dpk-intro		dpk-intro
events		events
media		media
milvus		milvus
rag		rag
.gitignore		.gitignore
README.md		README.md
env-sample.txt		env-sample.txt
getting-ready.md		getting-ready.md
requirements.txt		requirements.txt
setup-python-dev-env.md		setup-python-dev-env.md
tutorials.md		tutorials.md
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Prep Kit Examples

About

bit.ly/dpk-examples

Introducing Data Prep Kit (DPK)

Getting Ready

Events

How to Run the Code

Labs

Data Prep Kit Examples

Milvus - Vector Database

RAG Pipeline

About

Releases

Packages

Languages

sujee/data-prep-kit-examples

Folders and files

Latest commit

History

Repository files navigation

Data Prep Kit Examples

About

bit.ly/dpk-examples

Introducing Data Prep Kit (DPK)

Getting Ready

Events

How to Run the Code

Labs

Data Prep Kit Examples

Milvus - Vector Database

RAG Pipeline

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages