Releases: bareun-nlp/bareun-bin
Releases · bareun-nlp/bareun-bin
v2.3.1
2.3.1 (Nov 19, 2024)
결함
- manual: 매뉴얼의 전반적인 수정
- 새로운 annotate 추가 : info, warning, success, bug 등
- 표기법 통일: 윈도우, 도커, 리눅스, 파이썬, 자바, 자바스크립트, 텐서플로우 등
- 제대로 표시되지 않은 수많은 곳 수정
- baikalai/bareun 으로 표기된 것 수정
- code blocks에 모두 syntax highlight 부여
- 매뉴얼에 누락된 bareun.png 추가
- service: 윈도우 환경에서 실행되는 경우, 경로에 "/"가 포함되지 않도록 수정
- service: 붙여쓰기의 경우 붙여진 뒤에 오는 형태소의 오프셋 변경 취소
- service: 접속부사 다음에서 띄어쓰기를 하지 않는 문제 수정
- deploy: version tag 올바르게 출력되도록 수정
v2.3.0
2.3.0 (June 13, 2024)
결함
- deploy: Windows10 설치시 vcruntime 오류 수정
- deploy: tensorflow 2.9.1 golang 패키지 최신 버전 사용 문제 해결
- deploy: Docker에서 build-tf의 오류를 반영하고 빌드 오류 개선
- deploy: bareun 및 grpc 패키지 변경
- service: 누락된 web build file 추가
개선
- manual: 바른 문서 수정
- 문구 수정: 모호성 -> 중의성
- java 사용 예제 문서 수정
- API_KEY 사용 예제 수정
- 코랩 사용 예제 출력 오류 수정
- 47개 품사표 문서 분리
- Windows10 설치시 vcruntime 오류 대처 매뉴얼 추가
- '지원하기'에 카카오톡 오픈 채팅방, 슬랙 링크 추가
- 개요의 문장 분리(auto_split), 붙여쓰기(auto_joint) 기본값 false로 수정
- bareun.ai web: Linux, Docker ARM64 다운로드 추가, MacOS .pkg<->.tar.gz 표시 순서 변경
- service: 라이센스 만료 에러 메시지 변경
- service: 에러 메시지를 구체화
- API KEY가 틀린 경우, 메시지에 포함해서 사용자가 오류를 인지하기 쉽게 변경
- runenv: 통계 및 에러 로그에 User-Agent 추가
- 단말의 API 클라이언트별 사용량 측정
- 문제가 발생했을 경우, 어떤 클라이언트를 사용하는지 측정
새로운 기능
- deploy: Linux/Docker ARM64 아키텍처를 지원하기 위한 빌드 구성 추가
학습데이터 세부 수정 사항
- 학습데이터 증강
- '-을 뻔하다' 보조용언(VX) 태깅 데이터 추가
- 예시) 차에 치일 뻔했다. -> 치이/VV+ㄹ/ETM+뻔하/VX+았/EP+다/EF+./SF
- 조사랑 같이 쓰인 '누차'(NNG) 태깅 데이터 추가
- 예시) 누차로 경고했지만 -> 누차/NNG+로/JKB
- 예시) 누차에 걸쳐 설득했지만 -> 누차/NNG+에/JKB
- 예시) 누차의 노력으로 -> 누차/NNG+의/JKG
- '-을 뻔하다' 보조용언(VX) 태깅 데이터 추가
- 학습데이터 수정
- 자주 쓰이는 일부 영어(SL)로 태깅된 데이터를 일반명사(NNG) 또는 고유명사(NNP)로 수정
- MP3, LTE, PDF 등 약 32개 수정
- KBS, MBC, WTO 등 약 39개 수정
- 자주 쓰이는 일부 영어(SL)로 태깅된 데이터를 일반명사(NNG) 또는 고유명사(NNP)로 수정
v2.2.1
2.2.1 (Sep 21, 2023)
결함
- postag: 원문보다 더 큰 형태 크기가 발견되면 복합명사 처리 제외
- manual: 관리자 웹 및 도움말 사이트 주소 오타 수정
- manual: 106개 분절 규칙을 모두 107개 분절규칙으로 변경
- train: Token map DB 저장 경로 수정
개선
- postag: 축약_되_돼_오류 레이블 개선
- '되어'의 준말인 '돼'의 오류 표기에 대해서 '되어'로 올바르게 분석하기 위한 레이블
- 예를 들어, '되서' 형태에 대해서 기존에는 '서'를 기준으로 '어'를 복원했지만, 새로운 레이블 규칙에서는 '되'를 기준으로 '어'를 복원한다.
- 되_돼 오류 복원시 받침이 있는 종결어미가 있는 경우에도 처리할 수 있도록 수정
- ex) 여드름이 아주 깨끗하게 제거되엽 -> 제거되/VV+어엽/EF
- runenv: logger를 slog로 변경
- 기존의 log 대신에 slog를 사용하여 로그를 변경하였고, 기존의 log.Printf 스타일 대신에 Info, Warn, Debug, Error 형식으로 기록
- runenv: log 레벨을 debug로 지정
학습데이터 세부 수정 사항
- 학습데이터 증강
- 축약_되_돼 오류 레이블 관련 자체 말뭉치 학습 데이터 증강
- ex) 배송완료라 표시되서(되어서) 기뻤어요.
- ex) 충전도 엄청 잘되영(되어영)
- 축약_뵈_봬 오류 레이블 관련 자체 말뭉치 학습 데이터 증강
- ex) 오늘 은사님을 뵈서(뵈어서) 기뻤어요.
- ex) 아빠가 아파서 병원에 찾아뵈융(뵈어융)
- 축약_되_돼 오류 레이블 관련 자체 말뭉치 학습 데이터 증강
- 학습데이터 수정
- 파/VV+얾/EC -> 팔/VV+ㅁ/ETN
- 원문과 분석 형태가 맞지 않는 경우 수정
- 비자/NNG+이/VCP+루/SS -> 비자루/NNG
- 성공적인의과대학 -> 성공적의과학대학
- 자룐가요 -> 자룐가요?
- 자동측정기이라든지 -> 자동측정기라든지
v2.2.0
2.2.0 (Aug 9, 2023)
결함
- postag: 식별된 연결어미와 다음 형태소가 원 음절에서 분할되지 않는 경우 수정 ex) "뭐랬는데"
- postag: 축약된 짧은 문장에서 발생할 수 있는 오류 예방
- postag: UTF 계산을 위한 버퍼의 부족이 발생할 수 있는 경우 예방, ex) "잘안되서"
- train: csv dump 인자 추가 및 preproc 예외 처리
- deploy: 도커 빌드 오류 개선 - 개발서버 환경에서 docker tmp 및 root 권한 문제 해결
개선
- service: 우리말샘에서 단어 추출시 임베딩 사전에 없는 단어만 저장
- service: package-lock.json 형상관리에서 제외
- bareun.ai web: 형태소 결과 출력시 긴 어절에서 표깨짐 현상 제거
- manual: docker 설치시 windows에 관한 설명 추가(도움을 주신 분: sdkparkforbi)
- runenv: COLAB 환경이 docker mode로 동작되는 문제 수정
새로운 기능
- postag: UTF8, UTF16 인코딩에서 문장, 어절, 형태소의 시작위치(오프셋) 계산 오류 해결
- postag: AnalyzeList 구현: 입력된 문장의 개수를 그대로 분할하는 방식
- postag: 방언-었 레이블 추가 - 종성이 "-었-"의 축약형인 ㅆ이나 ㅅ인 경우도 분석 가능
- 경상도 방언에서 과거형 선어말어미 "-었-" 축약형을 분석할 수 있다.
- 예를 들어. "어이가 없어서 말문이 막힜(힛)다" -> 막히/VV+ㅆ(ㅅ)/EP+다/EF
- 경상도 방언 보조용언(VX) "뿌다/삐다, 부다/비다"를 분석할 수 있다.
- 예를 들어, "날씨가 더우니까 얼음이 다 녹아뿠(뿟삤삣)다" -> 녹/VV+아/EC+뿌/VX+ㅆ(ㅅ)/EP+다/EF
- 경상도 방언에서 과거형 선어말어미 "-었-" 축약형을 분석할 수 있다.
- deploy: Docker로 설치시 GPU를 사용할 수 있도록 변경
- test: gitlab-ci/cd 파이프라인 구현하여 test 및 build 실행
- test: 이슈별 오류문장 수집하여 테스트
- manual: Docker 사용 시 GPU 사용 매뉴얼 추가
- manual: AnalyzeSyntaxList 문서 내용 추가
학습데이터 세부 수정 사항
- 학습데이터 증강
- 방언-었 addons 문장 학습 데이터 증강
- 방언-뿠-삤 addons 문장 학습 데이터 증강
- ng_이중모음 addons 문장 학습 데이터 증강
- VCP가 생략되는 모든 이중모음 글자 조합 추가 ex) 이것은 구긥니까? - 구긔+이/VCP+ㅂ니까/EF+?/SF
- 던: 덜/VV+ㄴ/ETM 데이터 증강
- 명사형 전성어미 데이터 증강
- 의(JKG) 띄어쓰기 데이터 증강
- 학습데이터 수정
- 일부 1~3글자 한자/SH를 문맥에 맞추어 /NNG나 /NNP 등으로 수정
- 기시감, 응모자, 이지적, 타산적, 범속성
- "다/EC+./SF" 태깅 오류 "다/EF+./SF"로 수정
- 동사가 어미로 끝나지 않은 경우 수정
- 어미로 표기했지만 보조사인 경우 오류 수정 - 으니까는, ㄹ지라도, 려다가는, 으려던
- 이라든지 수정:
- 이/VCP+라든지/EC -> 라든지/JX, 이라든지/JX로 수정
- 명령형 종결어미 라/EF뒤에 조사가 붙은 경우, 라든지/EC -> 라/EF+든지/JX로 수정
- 빅카인즈 말뭉치: "잘안/NNG"를 "잘/MAG+안/MAG"으로 수정
- 일부 1~3글자 한자/SH를 문맥에 맞추어 /NNG나 /NNP 등으로 수정
v2.1.0
2.1.0 (Jun 5, 2023)
결함
- customdic: 사용자 사전을 지정했을 때, 사전을 찾지 못하는 문제 해결
- customdic: 서버를 재시작할때, 등록된 사용자 사전을 가져오지 못하는 문제 수정
- customdic: 사용자 지정 사전을 먼저 검사하지 못하는 문제 수정
- postag: "ㅠㅠㅠ", "ㅋㅋㅋ" 등 자소 글자가 입력되었을 때 위치값 계산 오류 수정
- postag: 복합명사 후처리에서 단어 합성 계산할 때, 동일 음절 오류 수정
- postag: 공백 문자에 대한 태깅 오류시 정상 보장
- postag:
하+아서
등에서 붙여쓰기를 한 이후에 오프셋이 틀어지는 문제 수정 - manual: 사용 매뉴얼 오타 수정(기호(''), 변수명 등)
- webutil: 웹 테스트 도구 환경 오류 수정
개선
- postag: 조사 다음 띄어쓰기 로직에 목적격 조사 예외로 허용
- postag: 부사나 관형사가 어절 끝에 오는 경우 띄어쓰기
- manual: 사용자사전 API 문서 수정(자세한 사용 예시)
- runenv: 코랩 환경에서 기록이 남지 않는 문제 수정
새로운 기능
- customdic: 사용자 사전 동작 방식을 근본적으로 재구성
- 최소 개입 및 전체 일치 원칙
- 대상이 되는 블럭에서 전체적으로 일치하는 경우에만 사전의 내용 반영
- 정확하게 일치하는 토큰이 있는 경우에만 찾음
- 분절 결과에 대한 확신 및 존중
- 분절에서 최대한 정확하게 결과물이 나온다고 믿고 작업을 수행함
- 정상적인 분절이 이뤄진 이후에 조합이 필요한 부분에 대해서만 처리함
- 모든 조합 가능한 문자열이 아닌 형태소 분절 기준 하에서 조합 가능한 단어를 찾아내고 작업을 수행함
- 단순성
- 복합명사, 복합동사 추출 후 재조립과정에서 변경 부분만 업데이트하도록 구성함
- 안정성
- 사용자 사전을 먼저 스캔함
- 기본사전, 학습사전을 그 뒤에 사용함
- extra-ng, extra-np는 사용하지 않음
- 최소 개입 및 전체 일치 원칙
- customdic: 복합명사를 포함할 수 없는 조건을 명시하여 복합명사 점검 루틴 최소화
- customdic: 모든 이모지 문자열은 SW로 태깅하도록 수정
- customdic: 동사, 형용사가 중복되는 경우에도 복합동사(형용사)를 처리
- customdic: 사용자 사전에 들어갈 수 없는 글자 점검
- 사용자 사전에 쓸 수 없는 기호 점검 예외 발생
- 사용자 사전에 공백문자가 있으면 예외 발생
- postag: 기존의 띄어쓰기, 붙여쓰기 이후에 사용자 사전을 처리하는 방식을 변경
- 사용자 사전 처리 이후에 띄어쓰기, 붙여쓰기로 처리하도록 개선
- 어절 내부에 발생가능한 사용자 사전을 폭넓게 허용하고, 활용의 경우에도 처리 가능
바나나우윤데요.
에서도 처리하도록 수정- 어미 활용이 복잡한 경우에도 안정적으로 복합명사 처리 동작 수행
- postag: 화면에 출력할 수 없는 한 글자인 경우 유니코드로 출력
- manual: 맥OS 패키지 설치 방법 추가
- train: extra-ng, extra-np 사전 저장 로직 수정
- test: 복합명사 후보군 추출 과정에 대한 전처리기 단위 테스트 구현
학습데이터 세부 수정 사항
- 4,732개의 '너비없는 더하기글자를 활용한 이모지 연속(Emoji ZWJ Sequence)' 내장사전(emoji) 추가
- 6,926개의 '특수 기호' 말뭉치 추가 및 학습
- 구어말뭉치 및 빅카인즈 말뭉치: 불닭볶음/NNG+이/VCP+면/EC를 불닭볶음면/NNP으로 수정
v2.0.4
2.0.4 (May 2, 2023)
결함 및 개선
- service: 대명사(NP) 다음에 VCP가 오는 경우 예외 추가
- service: 의존명사(NNB) 다음에 XSN, XSV, XSA, VCP 등이 오는 경우 예외 추가
- service: 띄어쓰기 EC 다음에 허용되는 경우 처리
- service: 반복되는 SF 태그를 하나의 태그로 묶는 것으로 처리
- service: 형태소를 재조립할 때, 위치값 복원할 때 원래의 분절 정보 사용: 태깅위치 오류 수정
- service: 어절의 구간이 넘치는 경우 로그 출력 상세화
- manual: GPU 사용 매뉴얼 추가
- manual: 맥OS 패키지 설치 방법 추가
새기능
- deploy: 맥OS 패키지 배포, 서비스 자동 등록
v2.0.3
v2.0.2
2.0.2 (Apr 14, 2023)
결함 및 개선
- service: argmax의 계산시 padding 값 출력 오류 수정
- service: 문장내 기호(SS)가 들어있는 경우 문장 분리 오류 수정
- service: 인터넷 연결이 없는 경우에는 라이센스만 점검하도록 변경
- manual: 모호성 평가 데이터 인용하기 추가
- manual: 총 8건의 매뉴얼 오타 및 문구 수정
- manual: docs.bareun.ai용 문서 yml 추가
- manual: 사용해보기 테이블 출력 UI 개선
새기능
- deploy: bareun.ai 서버 자동 배포 기능 추가
- train: Tag 모델 임베딩 파라미터 경량화
v2.0.1
v2.0.0
v2.0.0 (Feb 20, 2023)
결함 및 개선
- proto: bareun 사용성 연동을 위한 proto 정의
- proto: 서버 사용량 계산 로직을 위한 proto 개선
- service: python 기본 의존성 라이브러리를 tensorflow 2.9.1에 맞게 변경
- service: golang 1.9 환경에서 오류 해결 취약성 오류 패치
- service: 원문의 한 어절의 길이가 80을 넘어서는 경우 처리
- service: go routine의 에러 발생시 처리
- service: 되 다음에 나오는 글자에
축약_되_돼_오류_1
이면 오류 보정 - service: 명령라인 파라미터 정비
- service: 설정파일 이름으로 설치 경로 및 설정 파일을 추적하도록 처리
- deploy: envoy CORS 문제 해결
- test: 취약성 점검 결과 수정: golang 1.19.5 -> 1.2 업그레이드
- build: macOS m1을 위한 빌드 개선
- build: m1 cpu를 위한 vscode 실행환경 변경
- train: sha256기반 학습 산출물 버전 폐기
새기능
- train: 트랜스포머 모델 구현
- train: 트랜스포머 모델에서 문장의 처음과 끝에 비상적인 추론값 보정
- train: 임베딩 단어에 대한 통계 추출
- train: 트랜스포머 모델 추론시 랜덤값 제거
- train: 학습 파이프라인 web UI 및 서버 구현
- train: 빅카인즈 뉴스기사 말뭉치 서브모듈 추가
- customdic: 우리말샘사전에 동사, 형용사, 복합명사 추출하기
- service: 서버 재구조화, token 및 sentence 구조 명료화
- service: 분절 결과를 사용하여 각 형태의 위치 정보를 표시
- service: 띄어쓰기 기능 및 문장분리 기능 구현
- service: 붙여쓰기 후보정 로직 구현
- service: 커스텀 사전에 대한 동적 로딩 구현
- service: 사용자 사전을 외부 볼륨으로 바인드할 수 있도록 개선
- service: 매뉴얼 포함한 웹 페이지를 단일 서버에서 서비스
- service: lang-server 이름 bareun으로 변경
- service: 로컬 사용 통계 구현
- service: 에러 로그 기능 구현
- service: API키의 등록, 해지, 조회 기능을 cli로 구현
- service: 주기적인 로그 데이터 정리
- service: 사용자 사전을 apikey 기반으로 동작하도록 하기
- service: Tokenize API 구현
- service: API KEY 기반 기능 동작
- deploy: baikal-nlp 에서 bareun 으로 패키지 변경
- deploy: debian 패키지 생성
- deploy: 윈도우 인스톨러 구현
- deploy: bareun-front 설정에 필요한 envoy 설정 추가
- test: 단위테스트 코드 구현
- manual: mkdocs를 이용한 매뉴얼 재구조화
- build: protoc 버전 변경에 따른 업데이트
- build: docker 빌드 속도 개선 및 오류 개선
- build: 빌드용 도커 버전 업그레이드
학습 데이터 세부 수정 사항
- 동일 표면형에 대한 태깅 오류 확인 및 수정
- 표면형('나'#JX): 택1이 아니라 일반적인 열거의 맥락에서 '나/이나'가 쓰이는 경우, 보조사로 보고 있음. (국립국어원)
- 표면형('나'#VA): 원형이 '낫다(better)'의 의미일 경우, VV가 아니라 VA로 태깅해야 함. (우리말샘)
- 표면형('나서'#VV): '나서다' 동사가 '나다' 동사로 잘못 태깅된 경우를 수정함.
- 표면형('그러'#VV,VA,MAJ): 명확하게 연결어미가 아니라 종결어미로 쓰인 경우 수정함.
- 표면형('단지'#NNG): 단지/MAG로 오태깅된 단지/NNG에 대하여 수정함.
- 인근에 경전철역이 신설되며 단지 바로 앞에 초등학교와 중학교가
- 표면형('이러니까'#VA+EC): 이렇/VA+니까/EC에 대해서 이러니까/MAG로 오태깅된 사례를 수정함.
- 표면형('누구야'#JKV): '야'에 대해서 확실하게 '누군가를 부르는 상황'일 때 호격조사로 태깅을 수정함.
- 표면형('~야'#JX): 확실히 '누군가를 부르는 상황'이 아니고, 대상 강조의 의미일 때 보조사로 태깅을 수정함.
- 표면형('노'#VV): 노/VV+시/EP+기/ETN+만/JX -> 노/VX+시/EP+기/ETN+만/JX)
- 표면형('도로'#NNG): '되돌려서'의 의미를 가진 도로/MAG와 도로/NNG를 구분하여 수정함.
- 모호성 데이터 추가
- addons-ambig 폴더에 부족분 코퍼스 증강
- 띄어쓰기 오류 발생을 통한 증강 학습