본문 바로가기 주메뉴 바로가기

AI Data/Voice DB

AI데이터/음성DB

사운드믹싱·음악

음성인식을 위한 한국어 및 다국어 음성DB를 구축합니다.
전사, 레이블링, start end, 태깅 및 Region, 음소단위 레이블을 수행합니다.

01

준비

타당성 있는 예산정책
인력배치 / 클라우드워커 편성
인건비 / 기술료 책정 제시
오디오 디바이스 SPEC 제시

02

대본

오타 및 갯수 확인
화자별 대본 정리
욕, 선정성 확인 (어린이 화자)

03

화자

나이, 성별, 지역 등에 따른 화자 DB 정리
화자 상태 Check (마스크, 목쉼, 비염 등)
표준어, 사투리 구분
3,000명 회원과의 프로젝트 경험 및 DB
개인정보보호 해결

04

녹음

사전 테스트 녹음 진행
레코딩 환경 조성
(마이크/필터/환경노이즈 등)
발화 스타일
(악센트, 빠르기, 속삭이듯 등)
발성크기/SNR 준수
전문 엔지니어 녹음 진행
Cliping, Poping, 립노이즈 등 체크

05

편집

라벨링, 마킹 작업
묵음, 비음성구간 편집
Sample rate (48k 16b mono PCM)
No effecting 준수

06

전사

적정길이로 분할된 음성 / 텍스트파일 매칭
발음전사
Auto전사 후 수동 전사 시스템
전사규칙 및 전사방안은 공통규칙 준수
IN / ITN이 반영된 음성 전사 제공

07

레이블링

자체 개발한 레이블링 프로그램 이용
Auto 레이블링 후 수동 레이블링
반복 교육/작업으로 숙달된 레이블러
Start End Time 정보 기재
반복작업, 교육을 통한 오류율 최소화

08

검수 및 납품

DB 오류 체크
데이터 보안을 위한 데이터 접근 강화
주간 단위 납품을 통한 문제점 미연 방지
Report 작성 제출

음성DB구축용 프로그램 & 개별 부스 보유

프로젝트 진행 및 실적

NIA한국정보화진흥원
-[멀티모달] 영상&음성 25만개 라벨링, 시작점 DB 구축
-[비전] AI학습용데이터 춤 사위 데이터 40만개 DB구축
- 일반인 200명 대상 음성인식용 DB구축
- 영어 성우 50시간 음성 DB구축
- 어린이화자 100명 대상 음성인식용 DB구축
- 스마트보청기 개발 환경소음 DB구축
- 다수의 음성DB구축 용역 수행