본문 바로가기

영상번역

번역가의 네이버 클로바 음성 인식 활용기(요금, 시간, 인식률)

이번에 한국 영화 음성을 받아 적고 자막으로 만들어야 해서(넷플릭스 한글 자막을 생각하면 된다)

 

유튜브 음성 인식 기능과

 

네이버 클로바 음성 인식 기능(클로바 스피치)을 써보기로 했다.

 

 

유튜브 음성 인식 기능은 

aimb.tistory.com/entry/%EB%AC%B4%EB%8C%80%EB%B3%B8-%EC%9E%90%EB%A7%89%EB%B2%88%EC%97%AD-%EA%BF%80%ED%8C%81-%EC%9C%A0%ED%8A%9C%EB%B8%8C-%EC%9E%90%EB%8F%99%EC%9E%90%EB%A7%89-%EC%83%9D%EC%84%B1

 

무대본 자막번역 꿀팁 : 유튜브 자동자막 생성

한국어, 영어는 럭키하게도 유튜브 VOD의 자동 자막 서비스에 포함된다. 하지만 영어가 원본(시작어)인 영상의 경우 영어 자동 자막을 기대하는 게 속 편하다. 자동 자막이 완벽한 건 아니지만,

aimb.tistory.com

참조하시라.

 

 

자, 이제 클로버 음성 인식 엔진을 사용하러 가보자...!!

 

 

하려면 먼저 서비스 이용 신청을 해야 한다.

 

네이버 아이디와 별도로

 

네이버 클라우드 플랫폼 가입을 하고 카드정보를 입력해야 가입이 완료된다.

요금은 1시간짜리 영상 기준으로 3000원이 채 안 된다. 

최대 2GB, 2시간짜리 영상을 인식할 수 있고

플랜별로 이용료가 다르다.

(2시간이 넘어가는 영상이라면 분할해서 인식시키면 되겠다.)

가입해서 결제 수단을 등록하면 3개월간 사용할 수 있는 10만 원의 크레딧이 생성된다.

 

 

하지만 클로바 스피치 사용기, 꽤 복잡하다. 

신청만 한다고 바로 되는 게 아니다. 

 

파일을 올릴 수 있는 클라우드 같은 도메인을 생성해야 하고

 

그다음엔 파일과 폴더를 생성하는 단위인 버킷을 만들어야 한다.

 

그다음에야 파일 업로드를 할 수 있다.

 

파일 크기는 2GB 미만으로 제한된다. 

 

그래서 인코딩해주고 옴 ^^

 

요새는 카메라 화질이 너무 좋아서 영상 원본 파일이 쓸데없이 큰 경우가 많으니... 파일 크기 업로드 제한은 이해는 하지만

 

이렇게까지 과정을 복잡하게 할 일인가 싶다.

 

그냥 서비스 이용 신청하고 바로 파일 업로드하고 음성인식해주면 안 되나?...

 

굳이 왜 사용자가 도메인인지 버킷인지를 만들어야 하는 거지??

 

 

+ 원본 영상이 2시간 넘는데 4G 가까이 돼서 샤나 인코더로 비트레이트 500인가 주고 800MB로 줄였는데

 

1시간 분량만 받아 적으면 되어서 윈도우 사진 앱으로 비디오 잘랐더니 용량이 1.5G가 됐다.

 

뭐지?.......

 

윈도우 사진 앱으로 비디오 자르지 말자 ㅎ....

무튼 파일을 올리면

 

인식 작업 요청을 누를 수 있다.

 

1시간짜리 영상을 인식하여 자막으로 만드는 데 걸린 시간은 5분여 남짓이다.

 

인식 결과 편집 탭에서 수정할 수도 있지만 다운로드하여서 번역 툴에서 작업해보기로 했다.

 

파일은 SMI, SRT, TXT, JSON 등으로 다운로드할 수 있다.

 

 

 

앞부분은 이전 작업자가 작업한 게 있어서 인식률을 비교해보았다.

왼쪽이 사람 작업자, 오른쪽이 클로바 스피치.

 

신기한게 줄바꿈이 일치한다.

 

전 작업자도 클로바 돌렸나?... ㅋㅋㅋㅋㅋㅋㅋ

 

인물이 좀 웅얼거리는 부분은 제대로 인식을 못 하긴 한다.

배경 음악이 있어도 제대로 인식을 못 한다.

의문형 문장에 ?나 소리치는 문장에 ! 를 제대로 붙여주지 않는다.

 

그러면서도 클로바로 인식한 자막은 문장 끝날 때마다 구분 기호로 .을 붙인다.

신기하게도 중간 문장에는 .을 안 넣는 데도 있다.

 

다음은 유튜브와의 인식률 비교.

왼쪽이 사람 작업자, 오른쪽이 유튜브 자동 자막이다.

영어가 갑자기 왜 생겨?... 인식률은 쓰레기다.

유튜브의 경우 영어 자동 자막은 꽤 괜찮다. 자막 싱크가 단어별로 끊겨서 다 잡아줘야 하지만.

 

결론은 클로바 스피치, 한국 영상의 인식률이 매우 훌륭하다.

 

사람이 하면 몇 시간을 작업해야 할 걸 5분으로 완료하다니....

 

업체에서 알고 사용하면 번역가들 일 끊길까 봐 무섭다.

 

넷플릭스에서 한글 자막 달 때는 다 이런 음성 인식을 사용하는 건지 궁금해진다.

 

사람 번역가에게 일일이 딕테이션을 시키고 맞춤법을 돌리고, 검수시키는 거보다

 

이렇게 음성 인식을 하면 한 큐에 뚝딱일텐데....

(넷플릭스는 인물들의 이름을 한글 자막에 다 넣긴 한다.)

 

 

무튼, 한글 영상의 자막을 생성해야 할 때 요긴하게 쓸 수 있는 클로바 스피치 체험기였다.

 

++ 작업 후기

 

이번 작업의 경우 영어 번역본이 있고. 그 싱크에 맞춰서 한글을 넣어줘야 했기 때문에

줄 바꿈을 다 수정하면서 작업해야 했다.

 

즉 네이버 클로바로 음성 인식한 것도 그대로 갖다 쓸 수 있는 게 아니어서

번역 툴로 기존 작업물 + 클로바 음성 인식 2개를 띄워놓고 번갈아 가며 작업했는데,

아무리 단축키로 빠르게 왔다 갔다 한다고 한들

짧은 문장은 직접 치면서 작업하는 게 더 빨랐다.

 

그래도 꽤 요긴하게 사용할 수 있었다.

 

애석하게도 줄바 꿈을 다 손보고, 원본 영상의 배우들의 발성이 어눌해서

인식 못 하는 부분은 손봐주느랴 총 1시간 분량의 영상을 작업하고 맞춤법 검사까지 돌리는데 총 5시간가량이 걸렸다.

 

다음에도 자막을 받아적을 일이 있다면

더 빠르게 작업할 수 있을 것 같다.