디지탈 뉴스 홈 인기 디지탈 뉴스

구글, 기계학습으로 음성통화 대역폭 줄이는 Lyra 코덱 베타 출시

2021-04-07 11:40
이수원 수석기자 swlee@bodnara.co.kr

구글(Google)이 음성통화 대역폭을 줄일 수 있는 새로운 Lyra 코덱의 베타 버전을 선보였다.


구글은 6일(현지시간) 오픈소스 블로그를 통해 기계학습을 사용해 고품질 음성 통화를 생성하는 혁신적인 새로운 오디오 코덱 Lyra를 보편적으로 사용할 수 있도록 오픈 소스 베타 버전을 공개한다고 밝혔다.

이번 릴리즈에는 개발자가 리눅스(Linux)에서 개발하면서 64-bit Arm 안드로이드 플랫폼에 최적화된 Lyra로 오디오를 인코딩 및 디코딩하는데 필요한 도구를 제공한다.



Lyra 아키텍처는 인코더와 디코더 두 부분으로 나눠지는데, 누군가 전화기에 대고 말하면 인코더는 음성의 고유한 속성을 포착해 40ms 단위로 추출한 다음 압축되어 네트워크를 통해 전송한다.

이를 다시 오디오 파형으로 변환하는 것이 디코더의 역할인데 기존 코덱은 이를 디지털 신호 처리(DSP)를 기반으로 수행하지만 Lyra 아키텍처는 고품질 음성 신호를 재구성하는 특정 유형의 기계 학습 모델을 사용하는 것으로 알려졌다.

구글 Lyra가 Opus와 같은 다른 코덱에 비해 우수한 품질을 위해 원시 오디오를 3kbps로 압축하며, 이것이 완전한 대안은 아니지만 연결이 불안정하거나 모바일 데이터 제한이 있는 환경과 같은 시나리오에서 의미있는 대역폭 절약이 가능하다고 설명했다.



Lyra 코드는 속도, 효율성 및 상호 운용성을 위해 C++로 작성됐으며, 철저한 단위 테스트를 위해 Abseil이 포함된 Bazel 빌드 프레임워크와 GoogleTest 프레임워크를 사용한다.

핵심 API는 파일 및 패킷 레벨에서 인코딩 및 디코딩을 위한 인터페이스를 제공하며, 다양한 필터 및 변환을 포함하는 완전한 신호 처리 도구 체인도 제공된다.

예제 앱은 안드로이드 NDK와 통합되어 네이티브 Lyra 코드를 Java 기반 안드로이드 앱에 통합하는 방법을 보여준다. 또한 Lyra를 실행하는데 필요한 가중치 및 벡터 양자화기를 제공한다.

Lyra 코덱 v0.0.1 베타 버전의 코드와 데모는 GitHub에서 확인할 수 있다.



이 기사의 의견 보기
ㅇㅇ / 21-04-08 2:16/ 신고
-On Mobile Mode -
90년대 9600 bps 모뎀으로 주고 받는 음성보다 3배나 적은 대역폭이라니 놀랍네요. 실시간 Speech-To-Text <=> Text-To-Speech에서 나아가 이제는 실시간으로 성문(聲紋) feature를 얻어 내서 입력 음성과 유사한 소리로 출력해주는 Feature-To-Speech네요.
닉네임
비회원
보드나라 많이 본 기사

보드나라 많이 본 뉴스
로그인 | 이 페이지의 PC버전
Copyright NexGen Research Corp. 2010