Skip to content

NVIDIA DLI "트랜스포머 기반 자연어 처리 애플리케이션 구축" 워크숍 레포지토리

Notifications You must be signed in to change notification settings

oneonlee/Building-Transformer-Based-NLP-Applications

Repository files navigation

Building-Transformer-Based-NLP-Applications

개발 환경

목차

1부: Machine Learning in NLP

  • 트랜스포머 아키텍처
  • 어텐션
  • 인코더 피쳐
  • 디코더 피쳐

2. BERT

  • BERT 구조
  • 토크나이저
  • Contextualized Word Embedding
  • Visualizing Attention with BERT
  • 데이터 준비
  • 토크나이저 학습
  • NeMo와 BERT 사전훈련

2부: Self-Supervision, BERT, and Beyond (자기지도, BERT 및 최신 모델)

2개의 클래스 프로젝트에 레이블링된 PubMed Abstract 793개로 구성된 NCBI 질병 언어 자료에서 가져온 데이터세트를 사용합니다. 이러한 데이터세트의 세부 정보를 살펴보고 이런 유형의 애플리케이션에 맞춰 자신의 데이터세트 를 조정할 수 있는 방법에 대한 인사이트를 얻을 수 있습니다.
다음과 같은 데이터를 살펴보게 됩니다.:

  • Corpus Annotated Data (코퍼스 주석 처리된 데이터)
  • 텍스트 분류 데이터 세트
  • NER 데이터세트

NVIDIA NeMo 오픈 소스 툴킷을 활용하여 BERT 기반 다중 클래스 분류 프로젝트를 구축할 예정입니다. 프레임워크는 PyTorch Lightning에 기반이 되어 있습니다.
다음과 같은 내용을 배웁니다.:

  • 텍스트 분류 프로젝트 구축 방법
  • 커맨드 라인(명령줄)에서 실험(Experiment)을 빠르게 실행해 보는 방법
  • PyTorch Lightning를 활용한 트레이닝 및 테스트 방법
  • 사전 훈련된 BERT 모델 선택 방법
  • 모델 정확도 시각화 방법

NVIDIE Nemo를 활용하여 도메인별 명명된 엔티티 인식기(NER, named entitity recognition)을 구축할 예정입니다.
다음과 같은 내용을 배웁니다.:

  • 토큰 분류 (NER 태스크) 프로젝트 구축
  • 커맨드 라인(명령줄)에서 토큰 분류기 트레이닝
  • 도메인별 모델 적용하기
  • 저장된 체크포인트에서 NER 모델 테스트하기

3부: Production Deployment (프로덕션 배포)

사용 전, bert_qa.pt data를 클릭하여 다운 받아 data 폴더 안에 넣어주세요.

다음과 같은 내용을 배웁니다.

  • PyTorch에서 트레이닝된 모델을 서버 효율적인 형식으로 변환
  • 감소된 정밀도 및 TensorRT 모델 최적화 적용

다음과 같은 내용을 배웁니다.

  • NVIDIA Triton Inference Server를 사용하여 프로덕션에 모델 배포
  • 모델 구성을 통해 NVIDIA Triton의 일부 기본 기능 제어
  • 내보내기 형식 및 구성 옵션이 성능 및 비용에 미치는 영향 평가

다음과 같은 내용을 배웁니다.

  • 다양한 Triton 구성 옵션이 서빙 성능에 미치는 영향 평가
  • 프로덕션의 추론 성능 모니터링

다음과 같은 내용을 배웁니다.

  • Triton에서 노출되는 API를 활용할 수 있는 단순한 애플리케이션 구축
  • 더 복잡한 애플리케이션 및 모델 파이프라인 배포를 위한 옵션 논의

Certificates