AI 음성인식 - End to End 음성인식 시스템에 대한 심화이해
2025.05.07
1. End-to-End 음성인식 시스템
본 논문은 어텐션 기반 Seq2seq 구조를 음성 인식에 적용한 것으로, CTC (Connectionist temporal classification)가 지배적이던 당시에 End-to-End 방식으로 우수한 성능을 달성한 혁신적인 연구입니다. 모델의 구조는 Listener (encoder)와 Speller (decoder)로 구성되어 있으며, Pyramidal Bidirectional LSTM을 사용하여 긴 시퀀스 길이 문제를 완화하였습니다. 또한 Exposure Bias Problem을 완...
2025.05.07