Notice
Recent Posts
Recent Comments
Link
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
Tags
more
Archives
Today
Total
관리 메뉴

Zorba blog

한국어 STT 성능 비교(구글/네이버/AWS/카카오/ETRI) 본문

카테고리 없음

한국어 STT 성능 비교(구글/네이버/AWS/카카오/ETRI)

Zorba blog 2022. 5. 16. 22:10

한국어 STT를 사용할 일이 생겨서 구글, 네이버 등에서 제공하고 있는 한국어 STT API를 비교하였습니다.

혹시 잘못 기입된 정보가 있다면 댓글 부탁드립니다.


비교한 API는 구글, 네이버, 카카오, ETRI에서 제공하는 한국어 STT 입니다. Test 음성은 아래 3개의 동영상에서 추출하였습니다. API에 따라 유투브 영상으로부터 mp3형태로 추출하여 입력하거나, mp4 형식으로 입력하였습니다. Input 길이 제한이 있는 경우 음성을 1분씩 잘라서 처리하였습니다.

 

전기차 배터리(14:44) : https://www.youtube.com/watch?v=wlmd1w0i8z8

슈카월드(16:58) : https://www.youtube.com/watch?v=hAz0IFrGV2c

경제수학(27:56) : https://www.youtube.com/watch?v=eEOKSrHhjLE

 

내용에 비해 티스토리 넓이가 부족하여 표를 두개로 나누어 첨부합니다.

API 비용 Input 길이 제한 처리 소요시간
구글
(자동 자막 생성)
무료 없음 3~4초/영상
구글
(STT, 60초 미만)
7.5원/15초 ($0.006)
600원/20분
60초 60초 음성 처리시간 : 8~11초
구글
(STT, 60초 이상)
7.5원/15초 ($0.006)
600원/20분
 + Storage 비용 표준 스토리지
(1GB당 월별 과금 $0.023=30원)
명시 X 경제 수학(27:56) : 3분 46초
슈카월드(16:58) : 3분 20초
전기차(14:44) : 2분 36초
(영상길이/처리시간:5~7분/1분)
네이버
(Clova Speech Recognition)
4원/15초
320원/20분
60초 60초 음성 처리시간 : 35~45초
네이버
(Clova Speech)
12원/15초
960원/20분
2시간 경제 수학(27:56) : 32초
슈카월드(16:58) : 23초
전기차(14:44) :20초
(영상길이/처리시간:40~50분/1분)
AWS
(Amazon Transcribe)
7.5원/15초 ($0.006)
600원/20분
명시 X 경제 수학(27:56) : 3분 56초
슈카월드(16:58) : 2분 30초
전기차(14:44) :2분 12초
(영상길이/처리시간:5~6분/1분)
카카오 기술 이전 필요
(5,400초/1일 쿼터 제한)
30초 -
ETRI 서비스 제휴 필요
(1000건/1일 쿼터 제한)
20초 -
API 성능 비고 화자 분리 여부 Output 형식
구글
(자동 자막 생성)
- - 2명 이상의 오디오가 겹치는 경우
자막 생성 불가능
- 유튜브 영상만 가능
X 스크립트
구글
(STT, 60초 미만)
- X 스크립트
구글
(STT, 60초 이상)
- 60초 이상의 경우 필수적으로
Google Cloud Storage 버킷에 저장.
X 구간, 스크립트
네이버
(Clova Speech Recognition)
- 처리 소요 시간이 생각보다 오래 걸림
(2.8초 음성 인식 시간 1.5초 가량)

- Error 음성 인식이 안되는 것들이 많음.
X 스크립트
네이버
(Clova Speech)
- Object Storage 사용하면
(1GB당 월별 과금 28원)
- API 사용 시 Object Storage 외
로컬, 외부 URL으로도 접근 가능
동영상 자체도 처리 가능
O 구간, 화자,
스크립트
AWS
(Amazon Transcribe)
- 필수적으로 S3 버킷에 저장.
- 물음표도 표기
- 구글과 비슷하게 처리 소요시간↑
O 구간, 화자,
스크립트
카카오 - - 현재 Beta 서비스 中.
- 단문 인식만 가능.
- 이어 말하기 음성 인식은 현재 오픈 준비
X -
ETRI - - 기술 이전료 1.2억~2.4억 X -

 

먼저 각 API간의 특징들을 비교하고 마지막에 성능 비교 결과를 첨부하겠습니다.

 

구글(자동 자막 생성)

 구글(자동 자막 생성)의 경우 API는 아니지만 유투브에서 한국어 자막 자동생성을 지원하고 있기 때문에 비교 대상으로 추가하였습니다. 다만 성능이 다른 STT에 비해 현저히 떨어지고, 2명 이상 화자의 오디오가 겹치는 경우 or 발음이 부정확하다고 인식되는 경우 자막 생성을 지원하지 않고 있습니다. 유투브 영상에만 적용 가능하고, 화자 분리 지원은 하지 않으며, Output 형식은 텍스트 스크립트만 제공됩니다. 이러한 단점들로 인해 성능 비교는 진행하지 않았습니다.

 

구글 STT

 구글에서 제공하는 STT API는 60초 미만과 60초 이상의 음성에 대해 각각 다르게 처리를 하도록 되어있습니다. client 호출 시 Function이 다른데 60초 미만의 경우 client.recognize, 60초 이상의 경우 client.long_running_recognize로 각각 다른 Function으로 호출합니다. 비용은 둘 다 $0.006/15초 로 동일합니다.

 

 60초 이상의 긴 음성은 구글 Storage에 저장해야만 처리가 가능합니다. (Storage 비용은 별도 부과) Storage를 쓰지 않는 경우 Input 길이 제한이 60초라 성능 테스트를 할 때 음성을 60초씩 자르고 API를 호출하였습니다. 처리시간은 60초 미만 STT의 경우 60초 길이의 음성을 처리하는데 약 8~11초 정도 소요되었고, 60초 이상의 경우 3개의 영상에 처리하였을 때 2~3분 정도의 시간이 소요되었습니다.

 

 60초 미만의 경우 스크립트만 제공하지만 60초 이상의 경우 각 스크립트의 구간까지 제공합니다. (ex. 0~2초 : 안녕하세요. 2~5초 : 지금부터 ~~에 대해 말씀드리겠습니다.) 화자 분리의 경우 한국어는 지원하지 않고있습니다.

 

네이버 STT

 네이버에서 제공하는 STT API는 Clova Speech Recognition(CSR) 과 Clova Speech 두 가지 입니다. CSR은 60초 미만의 음성을 STT 처리하는데 사용할 수 있고, Clova Speech는 2시간까지 음성이 아닌 영상에 대해서도 STT 처리를 시행할 수 있습니다. 구글과 달리 네이버 Clova Speech의 경우 Storage 뿐만 아니라 Local, 외부 URL에서도 STT 접근이 가능하다는 장점이 있습니다.

 

 비용은 각각 15초당 4원, 12원으로 3배가 차이나며, 처리 속도의 경우 CSR은 60초의 음성을 처리하는데 35~45초라는 꽤나 긴 시간이 필요합니다. 반면 Clova Speech의 경우 3개의 영상을 각각 처리하는데 1분도 안걸릴 만큼 다른 API와 비교하였을 때 상대적으로 빠르게 처리됩니다.

 

 네이버도 구글과 마찬가지로 60초 미만의 경우 스크립트만 제공하지만 긴 영상의 경우 스크립트와 더불어 화자 분리, 구간까지 제공하고 있습니다.

 

AWS(Amazon Transcribe)

 아마존에서 제공하는 STT API (Amazon Transcribe)는 따로 Input 제한은 없습니다. 비용은 구글과 동일하며, 처리시간도 구글과 비슷하게 소요됩니다. 또한 아마존도 S3 Bucket에 음성 파일을 저장해야 한다는 점 또한 구글과 같습니다. 다만 한국어에 대해서도 화자 분리를 지원한다는 점이 좋습니다.

 

 또한 아마존의 경우 아래 스크립트 결과를 보시면 아시겠지만 "?" 같은 기호도 스크립트에 출력됩니다. 그리고 네이버의 경우 숫자를 1,2,3 이처럼 표기하지만 아마존의 경우 일,이,삼 처럼 숫자를 소리나는대로 한국어로 표기합니다.

 

카카오

 카카오에서도 음성 합성 API를 제공하고 있습니다. 다만 하루에 5,400초라는 쿼터 제한이 있고, Input 길이는 30초라는 한계가 있어 성능 비교에서는 제외하였습니다. 추가로 확인해보니 현재 Beta 서비스 중이고, 단문 인식만 가능하며, 이어 말하기 음성 인식은 오픈 준비중이라고 합니다. 추후에 오픈되면 성능 비교를 해보고 싶습니다.

 

ETRI

한국어 STT 성능 비교 논문을 보고 알게된 ETRI 입니다. 성능이 가장 좋다고 하는데 1000건/1일 이라는 쿼터 제한이 있습니다. Input 길이 제한은 20초이며, 아마 단문 인식만 가능한 것 같습니다. 따로 성능 비교는 진행하지 않았습니다.

 

 


성능 비교

성능 비교는 3개의 영상에 대해 정성적으로 진행하였습니다. 영상에 따라 성능에 차이가 있을 수 있습니다.

 

샘플1. 전기차 배터리

영상 특징 : 화자가 둘이다. 음극재, 양극재, 리튬이온배터리, 흑연 등 어려운 전문 용어가 많다.

예시문장 이수환 차장 모시고 배터리 음극재 이야기 한 번 해보겠습니다. 네 안녕하세요 이수환 입니다. 저희가 그 배터리 이야기를 할 때 마다 항상 4가지를 이야기 하잖아요. 양극재 음극재 분리막 전해질 이제 외웠어요.
구글 STT(60초 이하) 이승환 차장 모시고 배터리 국제 얘기 해 보도록 하겠습니다 이상입니다. 저희가 그 배터리 얘기를 할 때마다 항상 내가 제일 얘기하잖아 양극재 국제 분리만 매웠어요.
구글 STT(60초 초과) 예 이승환 차장 모시고 배터리 음극재 얘기 해 보도록 하겠습니다 이상입니다 저희가 그 배터리 얘기를 할 때마다 항상 내가 제일 얘기하잖아 양극재 국제 분리만 전설 대지의 기적 매웠어요
네이버(Clova Speech Recognition) 예의상 차장 모시고 배터리 음극재 얘기해 보도록 하 겠 음다 하얀색이 아닙니다 저희가 그 배터리 얘기를 할 때마다 항상 내가 좀 얘기하자 네모 양극재 음극재 분리막 전해 질 이제 저 웨어 웨어 어
네이버(Clova Speech) 예 이수환 차장 모시고 배터리 음극재 얘기 해보도록 하겠습니다. 안녕하십니까 안녕하세요. 이수환입니다. 저희가 그 배터리 얘기를 할 때마다 항상 네 가지를 얘기하잖아요. 네 양극제 응극제 전 이제 외웠어요. 
AWS 이수한 차장모시고 배터리은 국제얘기해보도록 하겠습니다. 안녕하십니까? 안녕하세요? 이상입니다. 저희가 그 배터리 얘기를 할 때마다 항상 네 가지를 얘기하잖아요 뭐 양극재 음극제 왔어요. 

리튬이온, 음극재 처럼 생소한 단어들의 인식률이 전반적으로 떨어지네요.

예시문장 그람당 372밀리암페어 그 이상은 안나오는 겁니까 이 흑연이라는 재료에서 아 일단 탄소라는 어떤 그 분자가 가지고 있는 한계가 여기까지거든요 이게 답니다 여기서 더 이상 늘릴수가 없구요
구글 STT(60초 이하) 그럼 당 372 MA 그 이상은 안 나오는 겁니까 그게 아니라 어떤 그 분 제가 가지고 있는 한계가 여기까지 이거든요 이게 답니다 여기서 들릴 수가 없고요
구글 STT(60초 초과) 그럼 당 372 MA 그 이상은 안 나오는 겁니까 어떤 그 분 제가 가지고 있는 한계가 여기까지 여기까지거든요 이게 답니다 여기서 내릴 수가 없고요
네이버 (Clova Speech Recognition) Error : {"errorMessage":"Failed to STT","errorCode":"STT998"}
네이버(Clova Speech) 그람당 372 밀리암페어 그 이상은 안 나오는 겁니까 이 흑연이라는 재료에서 일단 탄소라는 어떤 분자가 가지고 있는 한계가 여기까지거든요. 이게 답입니다. 여기 여기서 늘릴 수가 없고요
AWS 그람당 삼백칠십이 밀리암페어그 이상은 안 나오는 겁니까? 이 흑연이라는 재료 일단 탄소라는 어떤 분자가 가지고 있는 한계가 여기까지거든요 이게 답니다. 어디서 늘릴 수가 없고요.

네이버 Clova Speech Recognition의 경우 Error가 발행하였습니다.

예시문장 그중에 음극재 얘기를 해보려고 합니다. 음극재는 어떤 역할을 합니까 음극재는 우리가 양극에서 발생한 리튬이온들이 음극으로 이동을 하는 과정에서 우리가 전기를 쓸 수 있게 되는 거고요. 음극 안에서 음극이 리튠이온을 가두고 있게 되고 그리고서 배터리의 전반적인 수명과 안전성을 결정하는 역학을 한다고 보시면 되겠습니다
구글 STT(60초 이하) 그중에 음극재 얘기 다 해 보려고 합니다 저는 어떤 역할을 합니까 문제는 우리가 양극에서 발생한 리튬이온들이 응급으로 이동을 하는 과정에서 이제 우리가 전기를 쓸 수 있게 되는 거고요 안에서 이제 여러가지 2인극 이제 미팅을 있게 되고 그러면서 이제 배터리 전반적인 수면과 안정성을 결정하는 어떤 역할을 한다 이렇게 보시면 되겠습니다
구글 STT(60초 초과) 그중에 음극재 얘기 다 해 보려고 합니다 저는 어떤 역할을 합니까 문제는 우리가 양극에서 발생한 리튬이온들이 응급으로 이동을 하는 과정에서 이제 우리가 전기를 쓸 수 있게 되는 거고요 안에서 이제 여러가지 2인극 이제 미팅을 있게 되고 그러면서 이제 배터리 전반적인 수면과 안정성을 결정하는 어떤 역할을 한다 이렇게 보시면 되겠습니다
네이버 (Clova Speech Recognition) 그 지 연극제에 기대어에 볼륨감을 국제는 어떤 역할을 합니까 등록제는 어류 양극에서 발생한 리튬이온 3으로 이동하는 과정에서 이제 우리가 전기를 쓸 수 있게 되는거구요 윤근 안해서 이제 여러가지 이혼 그 기질이 치매는 가족의 이익이 되고 그러면서 이제 배터리 전반적인 수면과 안정성을 결정하는 어떤 역할을 한다 이렇게 보시면 되겠습니다
네이버(Clova Speech) 그중에 응극제 얘기를 해보려고 합니다. 응극제는 어떤 역할을 합니까 제는 우리가 양극에서 발생한 리트미온들이 음극으로 이동을 하는 과정에서 이제 우리가 전기를 쓸 수 있게 되는 거고요 음극 안에서 이제 여러 가지 음극이 이제 리튜윈을 가지고 있게 되고 그러면서 이 배터리의 전반적인 수명과 안정성을 결정하는 어떤 역할을 한다 이렇게 보시면 되겠습니다.
AWS 그 중에 해보려고 합니다. 응급제는 어떤 역할을 합니까? 근무제는 우리가 양극에서 발생한 리튬요원들이 응급으로 이동을 하는 과정에서 이제 우리가 전기를 쓸 수 있게 되는 거고요. 음. 극안에서 이제 여러가지 은 그게 리튬는 가족의 있게 되고 그러면서 이제 배터리전반적인 수명 과 안정성을 결정하는 어떤 역할을 한다 이렇게 보시면 되겠습니다.

마찬가지로 음극재, 리튬이온등의 인식율이 무척 떨어집니다.

 

샘플2. 슈카월드

영상 특징 : 말이 빠르고, 했던 말을 반복한다. 제대로 맺음이 안되는 문장들이 많다.

예시문장 제가 예전에 이 시리즈 좀 했어요 코뿔소는 소인가 재미있어서 했는데 이거에 대한 반응을 보내 주시는 분들이 꽤 되셨습니다 이거 자기도 아이디어 있다 무슨 아이디어인데 형 그거 말고 이런 것도 있다 무슨 뭐 보내 주신 게 바다코끼리 야 이거 누가 보내줬어 바다코끼리는 코끼리인가 아니겠지 당연히 물개는 개인가 누굽니까 물개는 개 아니겠지
구글 STT(60초 이하) 예전에 2시리즈 좀 했어요 코뿔소는 소인가 재밌어서 했는데 이거 그 반응을 보내 주시는 분들이 꽤 드렸습니다 이거 자기도 아이디어 있다 무슨 아이디어인데 형 그거 이런 것도 있다 무슨 뭐 보내 주신게 바다 코끼리 코끼리 코끼리 아니겠지 물개는 개인가 누구입니까 물개는 개 아니겠지
구글 STT(60초 초과) 예전에 2시리즈 좀 했어요 코뿔소는 소인가 재밌어서 했는데 이거 그 반응을 보내 주시는 분들이 꽤 드렸습니다 이거 자기도 아이디어 있다 무슨 아이디어인데 형 그거 이런 것도 있다 무슨 뭐 보내 주신게 바다 코끼리 코끼리 코끼리 아니겠지 물개는 개인가 누구입니까 물개는 개 아니겠지
네이버 (Clova Speech Recognition) 에이 젼 a 시리즈 좀 했어요 커플 소는 소인가 재밌어서 했는데 이거 알면 그 반응을 보내 주시는 분들이 꽤 되셨습니다 이거 자기 나이도 있다 무슨 아이디 언 데 그럼 그거 말고 이런것도 있다 아픈 부분에 지진계 바다코끼리 바다코끼리 코끼리가 아닐지를 끼는 게 임가 누굽니까 물길 게 아니겠지
네이버(Clova Speech) 제가 예전에 이 시리즈 좀 했어요. 코플 쏘는 소인가 재밌어서 했는데 이거에 대한 반응을 보내주시는 분들이 꽤 되셨습니다. 이거 자기도 아이디어 있다. 무슨 아이디어인데 야 형 그거 말고 이런 것도 있다. 무슨 뭐 보내주신 게 바다 코끼리 야 이거 누가 보내줬어 바다 코끼리는 코끼리가 아니겠지 당연히 아니 물개는 개인가 누굽니까
AWS 제가 예전에 이 시리즈 좀 했어요. 코뿔소는 소인가 재미있어서 했는데 이거에 대한 반응을 보내주시는 분들이 꽤 되셨습니다. 이거 자기도 아이디어있다 무슨 아이디어인데? 그거 말고 이런 것도 있다 무슨 뭐 보내주신 게 바다코끼리이건 누가 바다코끼리 코끼리 니까 아니겠지? 당연히 물개는 개인 가누굽니까 물개는 게 아니겠지?

코뿔소를 잘 인식하는 것도 있고, 아닌 것도 있네요.

예시문장 나무의 정의가 여러해살이 식물인 건 당연한데 나무질 우리가 목질이라 그러죠 나무질 줄기가 있고 형성층 나이테, 형성층이 있어서 이렇게 나이가 들수록 나이테가 생기는 게 옆으로 굵어지면서 2차 생장을 하는 게 나무의 정의라고 합니다
구글 STT(60초 이하) 나무 정의가 여러해살이식물인 건 당연한 거지 우리가 목질이라 그랬잖아 무질 줄기가 있고 나이가 들수록 나이테가 생기는 옆으로 굵어지면서 2차 생각하는게 나무 예정이라고 합니다
구글 STT(60초 초과) 나무 정의가 해살이 식물 인간 당연한데 나무 목질이라 그랬잖아 무질 줄기가 있고 형성층이 저녁에 나이가 들수록 나이테가 생기는게 옆으로 굵어지면서 이찬영 잘하는게 나무 예정이라고 합니다
네이버 (Clova Speech Recognition) Error : {"errorMessage":"Failed to STT","errorCode":"STT998"}
네이버(Clova Speech) 나무의 정의가 여러 의 살이 식물인 건 당연한데 나무질 우리가 목질이라 그러죠 나무질 줄기가 있고 또 형성체 나이테 형성증이 있어서 이렇게 나이가 들수록 이렇게 나이테가 생기는 게 옆으로 굵어지면서 2차 생장을 하는 게 나무의 정이라고 합니다
AWS 나무 정의가 여러해살이 식물인 건 당연한데 나무지 우리가 목질이라 그러죠. 나무 질 줄기가 있고 형성측나이테형성층이 있어서 나이가 들수록 나이테가 생기는 게 옆으로 굵어지면서. 이 차 생장을 하는게 나무의 정이라고 합니다.

여러해살이, 형성층, 이차생장 이라는 단어의 인식이 잘 안되는 것 같습니다.

예시문장 그럼 바나나 줄기는 어디 있냐 그게 잎이라면 뿌리에 있답니다 풀도 그렇죠 줄기는 뿌리에 있는 거니까 바나나 뿌리가 이렇게 땅 속에 있기 때문에 이 이거는 그 뜻이 아닙니다 그 뜻이 아니기 때문에
구글 STT(60초 이하) 준비는 어딨냐 그게 입히려면 뿌리 그렇죠 땅속에 있기 때문에 우리 풀도 그렇죠 우리가 이렇게 땅속에 있기 때문에 이거는 그 뜻이 아닙니다
구글 STT(60초 초과) 준비는 어딨냐 그게 입히려면 뿌리 풀도 그렇죠 우리가 이렇게 땅속에 있기 때문에 이거는 그 뜻이 아닙니다
네이버 (Clova Speech Recognition) Error : {"errorMessage":"Failed to STT","errorCode":"STT998"}
네이버(Clova Speech) 그럼 바나나 줄기는 어디 있냐 그게 이이라면 뿌리에 있다. 풀도 그렇죠 줄기는 뿌리에 있는 거니까 바나나 뿌리가 이렇게 땅 속에 있기 때문에 이거는 그 뜻이 아닙니다. 그 뜻이 아니기 때문에
AWS 바나나 줄기는 어디 있냐, 그게 입이라면. 뿌리에 있다면 풀도 그렇죠. 줄기는 뿌리있는 거니까 받아 뿌리가 이렇게 땅 속에 있기 때문에 이거는 그 뜻이 아닙니다.

생각보다 네이버랑 AWS는 잘 하네요.

 

샘플3. 경제수학

영상 특징 : 수학적 용어가 나온다

예시문장 첫번째는 수와 경제생활 이라는 단원 인데요 이 단원에서는 여러분들의 그 수학 그냥 기본적인 연산들 비율 계산 하는 간단한 중학교에서 나오는 수학 정도 내용이 나온다고 보면 되구요 그 다음에 2 단원의 수열과 금융 같은 경우에는 그 여러분들이 수학시간에 배웠던 수열의 합 수열의 합을 그 금융에서 어떻게 이용되는지를 연결해서 배우는 교과 라고 생각하면 되구요
구글 STT(60초 이하) 첫 번째는 수학 영재 생활이라는 단어인데요이 단원에서는 여러분들의 그 수학 그냥 기본적인 연산들 비율 계산 하는 간단한 중학교에서 나오는 수학 정도 내용이 나온다고 보면 되고요 2단원의 수열과 금융 같은 경우에는 그 여러분들이 수학 시간에 배웠던 수열의 합 혈압을 근육에서 어떻게 이용 되는지를 연결해서 배우는 교과라고 하면 되고요
구글 STT(60초 초과) 첫 번째는 수학 영재 생활이라는 단어인데요이 단원에서는 여러분들의 수학 그냥 기본적인 연산들 비율 계산 하는 간단한 중학교에서 나오는 수학 정도 내용이 나온다고 보면 되고요 그 다음에 2단원의 수열과 금융 같은 경우에는 여러분들이 수학 시간에 배웠던 수열의 합 서랍을 근육에서 어떻게 이용 되는지를 연결해서 배우는 교과라고 생각하면 되고요
네이버 (Clova Speech Recognition) 첫번째는 수와 경제생활이라는 단원인데요 2 단원에서는 여러분들의 그 수학 그냥 기본적인 연산 대 비율 계산하는 간단한 중학교에서 나오는 수학 정도 내용이 나온다고 보면 되구요 그 담에 이 단원의 수열과 금융 같은 경우에는 그 여러분들이 수학 시간에 배웠던 수열의 합 설 아 블로그 금융에서 어떻게 이용 되는지를 연결해서 배우는 교과라고 생각하면 되고
네이버(Clova Speech) 첫 번째는 수화 경제 생활이라는 단원인데요. 이 단원에서는 여러분들의 수학 그냥 기본적인 연산들 비율 계산하는 간단한 중학교에서 나오는 수학 정도 내용이 나온다고 보면 되고요 그다음에 이 단원의 수열과 금융 같은 경우에는 여러분들이 수학 시간에 배웠던 수혈의 합 혈압을 금육에서 어떻게 이용되는지를 연결해서 배우는 교과라고 생각하면
AWS 첫번째는 수학경제생활 이라는 단어인데요. 이 단언에서는 여러분들의 수학그냥 기본적인 연산 들 비율 계산하는 간단한 중학교에서 나오는 수학정도 내용이 나온다고 보면 되고요. 그 다음에 이 단원의 수혈과 금융같은 경우에는 그 여러분들이 수학 시간에 배웠던 수열의 합수혈압 그 근육에서 어떻게 이용되는지를 연결해서 배우는 교과라고 생각하면 되고요.

'수열의 합을 금융에서' 라는 문맥에 대한 이해가 어려워 보입닙다.

예시문장 첫 번째 여기 보시면 어 1 나온 건 1 나온 건 이건 제가 풀었고 여기 2 3 4 5 6 7 8 9 10 나오는 연산을 이렇게 그리고 여기서 하고자 하는 것은 여러분들이 사칙연산만 잘하면 일단원은 크게 어렵지 않다 라고 그냥 가볍게 시작해라 라는 의도로 생각하면 될 것 같습니다 그리고 여러분 푼게 요거랑 다를수도 있어요 나올 수 있는 방법들은 여러가지가 있으니까 여러분 푼 것도 답이 맞게 나왔으면 문제되지 않는다 라고 생각하시면 됩니다 어쨌든 생각열기는 이렇게 하고 넘어가겠습니다
구글 STT(60초 이하) 첫 번째 여기 보시면 일 나온 거 일 나온 거 이런 제가 풀었고 여기이 삼 사 오 육 칠 팔 구 십 나오는 연산을 요렇게 그러니까 여기서 하고자 하는 거 여러분들이 사칙연산만 잘 하면 일단은 크게 어렵지 않다라고 그냥 가볍게 시작해라라는 의도로 생각하면 될 것 같습니다 그리고 여러분 풍계 요거랑 다를 수도 있어요 나올 수 있는 방법은 여러가지가 있으니까 여러분 것도 다 비 맞게 나왔으면 문제되지 않는다라고 생각하시면 됩니다 어쨌든 생각 여기는 요렇게 하고 넘어 가겠습니다
구글 STT(60초 초과) 첫 번째 여기 보시면 일 나온 거 일한 거 아니면 제가 풀었고 여기이 삼 사 오 육 칠 팔 구 십 나오는 연산을 요렇게 여기서 하고자 하는 거 여러분들이 사칙연산만 잘 하면 일단은 크게 어렵지 않다라고 그냥 가볍게 시작해라라는 의도로 생각하면 될 거 같습니다 그리고 여러분 풍계 요거랑 다를 수도 있어요 나올 수 있는 방법들을 여러 가지가 있으니까 여러분 폰 것도 다 비 맞게 나왔으면 문제되지 않는다라고 생각하시면 됩니다 어쨌든 생각 여기는 요렇게 하고 넘어가겠습니다
네이버 (Clova Speech Recognition) 첫번째 여기 보시면 5일 남은 거 있나요 아니면 제가 풀 었 구요 기 2 3 4 5 6 7 8 9 10 라운드 연산을 이렇게 그가 여기서 하고자 하는 건의 여러분들의 사칙연산만 잘 하면 일단 하면 크게 어렵지 않다라고  가볍게 시작해 나라는 의도로 생각하면 될 거 같습니다 그리고 여러분 큰 게 요거랑 다를수도 있어요 나올 수 있는 방법들은 여러가지가 있으니까 여러분 큰것도 답이 밖에 놔두면 문제 되지 않는다라고 생각하시면 됩니다 어쨌든 생강 이야기는 요렇게 하고 넘어간 있습니다 일
네이버(Clova Speech) 네 첫 번째 여기 보시면 1 나온 거 1 나온 거 1은 제가 풀었고요 여기 2 3 4 5 6 7 8 9 10 나오는 연산을 이렇게 그러니까 여기서 하고자 하는 거는 여러분들이 사칭 연산만 잘하면 1단어는 크게 어렵지 않다라고 그냥 가볍게 시작해라라는 의도로 생각하면 될 것 같습니다. 그리고 여러분 푼 게 요거랑 다를 수도 있어요. 나올 수 있는 방법들은 여러 가지가 있으니까 여러분 푼 것도 답이 맞게 나왔으면 문제되지 않는다라고 생각하시면 됩니다. 어쨌든 생각 열기는 이렇게 하고 넘어가겠습니다.
AWS 네. 첫번째 여기 보시면 일 나온거일 나온거일은 제가 풀었고요 여기 이 삼, 사, 오 육 칠, 팔, 구, 십 나오는 연산을 요렇게 그러니까 여기서 하고자 하는 거는 여러분들이 사 층 연산만 잘하면 일 단어는 크게 어렵지 않다 라고 그냥 가볍게 시작해라 라는 의도로 생각하면 될 것 같습니다. 그리고 여러분 풍계요거랑 다를 수도 있어요. 나올 수 있는 방법들은 여러 가지가 있으니까 여러분 푼 것도 답이 맞게 나왔으면 문제되지 않는다. 라고 생각하시면 됩니다. 어쨌든 생각열기는 이렇게 하고 넘어가겠습니다.

네이버는 2,3,4,5 이렇게 숫자로 표기한 반면 AWS는 한국어로 표기를 했네요.


결론

 영상을 3개만 비교하였지만, 정성적으로 평가하였을 때 네이버와 AWS의 성능이 상대적으로 우수합니다. 다만 네이버(CSR)의 경우 Error가 발생하는 경우가 있고, 상대적으로 떨어지는 성능을 보여 사용하기 어려워 보입니다. 구글의 경우 60초 이하, 60초 초과 둘 다 비슷한 STT 결과를 보이며, 네이버, AWS 보다는 상대적으로 성능이 떨어집니다. 네이버(Clova Speech)가 현재 샘플에서는 처리 속도도 준수하고, 숫자도 스크립트화가 가능한 것을 보아 해당 API를 사용하는 것이 옳다고 생각되나, 비용 문제로 인해 AWS를 사용하기로 하였습니다.

 

 한국어 STT가 필요하여 사용전에 비교를 진행하였습니다. 생각보다 STT API를 사용하는데 들어가는 비용이 높습니다. 추후에는 KoSpeech(OpenSpeech)라는 한국어 STT Open API가 있어 직접 STT를 구현해볼 계획입니다.

Comments