Ses tanımayı her zaman kullanıyoruz ama nasıl çalışıyor?
Bazen
kendimizi dijital cihazlarımızla diğer insanlardan daha fazla
konuşurken buluruz. Cihazlarımızdaki dijital asistanlar, ne
söylediğimizi anlamak için ses tanıma özelliğini kullanır. Bu nedenle,
sadece telefonumuzla veya akıllı hoparlörümüzle konuşarak hayatımızın
birçok yönünü yönetebiliyoruz.
Ses tanıma hayatımızın bu kadar
büyük bir parçası olsa da, genellikle onu neyin işe yaradığını
düşünmüyoruz. Ses tanıma ile perde arkasında pek çok şey oluyor, işte
onu neyin işe yaradığına dair bir dalış.
Ses Tanıma Nedir?
Modern
cihazlar genellikle, cihazınızda belirli görevleri gerçekleştirmek için
ses tanımayı kullanan bir program olan dijital asistanla birlikte
gelir. Ses tanıma, asistanların konuşmanızı dijital bir sinyale
dönüştürmek ve ne söylediğinizi anlamak için kullandığı bir dizi
algoritmadır. Microsoft Word gibi programlar, sözcüklerin yazılmasına
yardımcı olmak için ses tanıma özelliğini kullanır .
İlk Ses Tanıma Sistemi
İlk
ses tanıma sistemine Audrey sistemi adı verildi. Ad, "Otomatik Rakam
Tanıma"nın kısaltılmış haliydi. 1952'de Bell Laboratories tarafından
icat edilen Audrey, sayısal rakamları tanıyabildi. Konuşmacı bir sayı
söyleyecek ve Audrey karşılık gelen 10 ampulden birini yakacaktı.
Bu
buluş çığır açıcı olsa da iyi karşılanmadı. Bilgisayar sisteminin
kendisi yaklaşık altı fit uzunluğundaydı ve çok büyük miktarda yer
kaplıyordu. Boyutu ne olursa olsun, yalnızca 0-9 arasındaki sayıları deşifre edebiliyordu. Ayrıca,
yalnızca belirli bir ses türüne sahip bir kişi Audrey'i kullanabilirdi,
bu nedenle öncelikle bir kişi tarafından yönetiliyordu.
Hataları
olsa da, Audrey ses tanımayı bugünkü haline getirmek için uzun bir
yolculuğun ilk adımıydı. Sözcük dizilerini anlayabilen bir sonraki ses
tanıma sisteminin ortaya çıkması uzun sürmedi.
Ses Tanıma, Sesi Dijital Sinyale Dönüştürmekle Başlar
Ses
tanıma sistemleri, ne dediğimizi anlamak için belirli adımlardan
geçmelidir. Cihazınızın mikrofonu sesinizi aldığında, Analogdan Dijitale
Dönüştürücüye (ADC) giden bir elektrik akımına dönüştürülür. Adından da
anlaşılacağı gibi, ADC elektrik akımını (AKA, analog sinyal) dijital
bir ikili sinyale dönüştürür.
Akım
ADC'ye akarken, akımın örneklerini alır ve zamanın belirli noktalarında
voltajını deşifre eder. Belirli bir zaman noktasındaki gerilime örnek
denir. Her örnek, saniyenin yalnızca birkaç binde biri uzunluğundadır.
Numunenin voltajına bağlı olarak, ADC bir dizi sekiz ikili basamak (bir
bayt veri) atayacaktır.
Ses Netlik İçin İşlendi
Cihazın hoparlörü daha iyi anlayabilmesi için, netliği artırmak için sesin işlenmesi gerekir. Cihaz bazen gürültülü bir ortamda konuşmayı deşifre etmekle görevlendirilir; bu
nedenle, arka plan gürültüsünü ortadan kaldırmaya yardımcı olmak için
sese belirli filtreler yerleştirilir. Bazı ses tanıma sistemlerinde,
insanın işitme aralığından daha yüksek ve daha düşük frekanslar
filtrelenir.
Sistem yalnızca istenmeyen frekanslardan kurtulmakla
kalmaz; Bilgisayarın sesi daha iyi tanıyabilmesi ve arka plan
gürültüsünden ayırabilmesi için sesteki belirli frekanslar da
vurgulanır. Bazı ses tanıma sistemleri aslında sesi birkaç ayrı frekansa
böler.
Sesin hızı ve hacmi gibi diğer yönler, ses tanıma
sisteminin karşılaştırmak için kullandığı referans ses örnekleriyle daha
iyi eşleşecek şekilde ayarlanır. Bu filtreleme ve gürültü giderme
süreçleri, genel doğruluğun iyileştirilmesine gerçekten yardımcı olur.
Ses Tanıma Sistemi Ardından Sözcük Yapmaya Başlıyor
Ses
tanıma sistemlerinin konuşmayı analiz etmesinin iki popüler yolu
vardır. Bunlardan birine gizli Markov modeli denir ve diğer yöntem sinir
ağları aracılığıyladır.
Gizli Markov Modeli Yöntemi
Gizli
Markov modeli, çoğu ses tanıma sisteminde kullanılan yöntemdir. Bu
sürecin önemli bir kısmı, konuşulan sözcükleri ses birimlerine (bir
dilin en küçük öğesi) ayırmaktır. Her dilde sınırlı sayıda ses birimi
vardır, bu nedenle gizli Markov modeli yöntemi çok iyi çalışır.
İngilizce
dilinde yaklaşık 40 ses birimi vardır. Ses tanıma sistemi bir tanesini
tanımladığında, bir sonrakinin ne olacağının olasılığını belirler.
Örneğin,
konuşmacı "ta" sesini çıkarırsa, bir sonraki ses biriminin "p" olması
ve "dokunma" kelimesini oluşturması için kesin bir olasılık vardır. Bir
sonraki ses biriminin "s" olma olasılığı da vardır, ancak bu çok daha az
olasıdır. Bir sonraki ses birimi "p"ye benziyorsa, sistem kelimenin
"dokunma" olduğunu yüksek bir kesinlikle kabul edebilir.
Sinir Ağı Yöntemi
Bir
sinir ağı, bir insan beyninin yaptığı gibi çok şey öğrenen dijital bir
beyin gibidir. Sinir ağları, yapay zeka ve derin öğrenmenin
ilerlemesinde etkilidir.
Ses tanımanın kullandığı sinir ağı türüne Tekrarlayan Sinir Ağı (RNN) denir. GeeksforGeeks'e
göre , RNN, "önceki adımdan [s] gelen çıktının mevcut adıma girdi
olarak beslendiği bir yerdir. Bu, bir RNN bir veri parçasını
işlediğinde, bir sonraki veri parçasıyla ne yapacağını etkilemek için bu
veriyi kullandığı anlamına gelir - esasen deneyimden öğrenir.
Bir
RNN belirli bir dile ne kadar çok maruz kalırsa, ses tanıma o kadar
doğru olur. Sistem "ta" sesini 100 kez tanımlarsa ve bunu 90 kez "p"
sesi takip ederse, ağ temel olarak "p"nin tipik olarak "ta"dan sonra
geldiğini öğrenebilir.
Bu nedenle, ses tanıma sistemi bir ses
birimi belirlediğinde, bir sonraki sesin hangisinin geleceğini tahmin
etmek için biriken verileri kullanır. RNN'ler sürekli öğrendiği için ne
kadar çok kullanılırsa ses tanıma o kadar doğru olur.
Ses tanıma
sistemi sözcükleri tanımladıktan sonra (gizli Marvok modeliyle veya bir
RNN ile) bu bilgi işlemciye gönderilir. Sistem daha sonra yapması
gereken görevi yerine getirir.
Ses Tanıma Modern Teknolojide Bir Temel Haline Geldi
Ses
tanıma, modern teknolojik ortamımızın büyük bir parçası haline geldi.
Dünya çapında çeşitli endüstrilerde ve hizmetlerde uygulanmıştır;
gerçekten de pek çok insan sesle etkinleştirilen asistanlarla tüm
hayatlarını kontrol ediyor. Apple saatlerinize yüklenen Siri gibi
yardımcıları bulabilirsiniz. 1952'de sadece bir rüya olan şey gerçek
oldu ve yakın zamanda duracak gibi de görünmüyor.