Python kodlama dilini kullanarak sesli harf tanıyan program tasarımı
Bildiğimiz gibi ses tanıma teknojisinin temelleri 50'li yıllara dayanmaktadır. Bilim insanları ve mühendisler insan konuşmasının karmaşıklığı yüzünden başlangıç olarak sayıları tanıyan sistemler tasarlamışlardı. İlerleyen yıllarda konuşmacıdan bağımsız tanıma modelleri geliştirildi ve geliştirilmeye devam etti. Bu alanda yapılan ilk çalışmaları yıllara göre dizecek olursak;
- 1950'ler ve 1960'lar: İlk konuşma tanıma sistemleri yalnızca rakamları anlayabiliyordu. Bell Laboratuvarları 1952'de tek bir sesle konuşulan rakamları tanıyan “Audrey” sistemini tasarladı. On yıl sonra IBM, 1962 Dünya Fuarı'nda İngilizce konuşulan 16 kelimeyi anlayabilen "Shoebox" makinesini gösterdi.Ayrıca bu süre zarfında Sovyet araştırmacıları dinamik zaman atlama (DTW) algoritmasını icat ettiler ve bunu 200 kelimelik bir kelime dağarcığı üzerinde çalışabilen bir tanıyıcı oluşturmak için kullandılar. Konuşmacı bağımsızlığına ulaşmak, bu süre zarfında araştırmacıların çözülmemiş başlıca hedeflerinden biriydi.
- 1970'ler: Konuşma tanıma teknolojisi, ABD Savunma Bakanlığı'nın ilgisi ve finansmanı sayesinde 1970'lerde büyük adımlar attı. DoD’nin 1971'den 1976'ya kadar DARPA Konuşma Anlama Araştırması (SUR) programı, konuşma tanıma tarihindeki türünün en büyüklerinden biriydi ve diğer şeylerin yanı sıra Carnegie Mellon’un "Harpy" konuşmayı anlama sistemi. Harpy, ortalama üç yaşındaki bir çocuğun kelime dağarcığı olan 1000 kelimeyi anlayabiliyordu.
- 1980'ler: Konuşma Tanıma Tahmine Doğru Dönüyor Önümüzdeki on yıl içinde, insanların ne dediğini anlamaya yönelik yeni yaklaşımlar sayesinde, konuşma tanıma kelime dağarcığı yaklaşık birkaç yüz kelimeden birkaç bin kelimeye sıçradı.
Bizde bu çalışmamızda çeşitli yollarla ses sinyallerinin öz niteliklerini oluşturup karşılaştırdık ve bir konuşmacıdan bağımsız sesli harf tanıma programı oluşturduk.
Yaptığımız çalışma, sunum ve kullandığımız bazı çalışmalar;
Programın kodlarına Github profilimden ulaşabilirsiniz."https://github.com/hacialisayar"
MFCC and its applications in speaker recognition
Feature selection for a DTW-based speaker verification system
SPEAKER IDENTIFICATION USING MEL FREQUENCY CEPSTRAL COEFFICIENTS
An Approach to Extract Feature using MFCC
Parwinder Pal Singh, Pushpa Rani IOSR Journal of Engineering (IOSRJEN) 2014
Yorumlar
Yorum Gönder