Ses Tanıma Nasıl Çalışır?

Ses tanımayı her zaman kullanıyoruz ama nasıl çalışıyor?

Bazen kendimizi dijital cihazlarımızla diğer insanlardan daha fazla konuşurken buluruz. Cihazlarımızdaki dijital asistanlar, ne söylediğimizi anlamak için ses tanıma özelliğini kullanır. Bu nedenle, sadece telefonumuzla veya akıllı hoparlörümüzle konuşarak hayatımızın birçok yönünü yönetebiliyoruz.

Ses tanıma hayatımızın bu kadar büyük bir parçası olsa da, genellikle onu neyin işe yaradığını düşünmüyoruz. Ses tanıma ile perde arkasında pek çok şey oluyor, işte onu neyin işe yaradığına dair bir dalış.

Ses Tanıma Nedir?
Modern cihazlar genellikle, cihazınızda belirli görevleri gerçekleştirmek için ses tanımayı kullanan bir program olan dijital asistanla birlikte gelir. Ses tanıma, asistanların konuşmanızı dijital bir sinyale dönüştürmek ve ne söylediğinizi anlamak için kullandığı bir dizi algoritmadır. Microsoft Word gibi programlar, sözcüklerin yazılmasına yardımcı olmak için ses tanıma özelliğini kullanır .

İlk Ses Tanıma Sistemi
İlk ses tanıma sistemine Audrey sistemi adı verildi. Ad, "Otomatik Rakam Tanıma"nın kısaltılmış haliydi. 1952'de Bell Laboratories tarafından icat edilen Audrey, sayısal rakamları tanıyabildi. Konuşmacı bir sayı söyleyecek ve Audrey karşılık gelen 10 ampulden birini yakacaktı.

Bu buluş çığır açıcı olsa da iyi karşılanmadı. Bilgisayar sisteminin kendisi yaklaşık altı fit uzunluğundaydı ve çok büyük miktarda yer kaplıyordu. Boyutu ne olursa olsun, yalnızca 0-9 arasındaki sayıları deşifre edebiliyordu. Ayrıca, yalnızca belirli bir ses türüne sahip bir kişi Audrey'i kullanabilirdi, bu nedenle öncelikle bir kişi tarafından yönetiliyordu.

Hataları olsa da, Audrey ses tanımayı bugünkü haline getirmek için uzun bir yolculuğun ilk adımıydı. Sözcük dizilerini anlayabilen bir sonraki ses tanıma sisteminin ortaya çıkması uzun sürmedi.

Ses Tanıma, Sesi Dijital Sinyale Dönüştürmekle Başlar
Ses tanıma sistemleri, ne dediğimizi anlamak için belirli adımlardan geçmelidir. Cihazınızın mikrofonu sesinizi aldığında, Analogdan Dijitale Dönüştürücüye (ADC) giden bir elektrik akımına dönüştürülür. Adından da anlaşılacağı gibi, ADC elektrik akımını (AKA, analog sinyal) dijital bir ikili sinyale dönüştürür.

Akım ADC'ye akarken, akımın örneklerini alır ve zamanın belirli noktalarında voltajını deşifre eder. Belirli bir zaman noktasındaki gerilime örnek denir. Her örnek, saniyenin yalnızca birkaç binde biri uzunluğundadır. Numunenin voltajına bağlı olarak, ADC bir dizi sekiz ikili basamak (bir bayt veri) atayacaktır.

Ses Netlik İçin İşlendi
Cihazın hoparlörü daha iyi anlayabilmesi için, netliği artırmak için sesin işlenmesi gerekir. Cihaz bazen gürültülü bir ortamda konuşmayı deşifre etmekle görevlendirilir; bu nedenle, arka plan gürültüsünü ortadan kaldırmaya yardımcı olmak için sese belirli filtreler yerleştirilir. Bazı ses tanıma sistemlerinde, insanın işitme aralığından daha yüksek ve daha düşük frekanslar filtrelenir.

Sistem yalnızca istenmeyen frekanslardan kurtulmakla kalmaz; Bilgisayarın sesi daha iyi tanıyabilmesi ve arka plan gürültüsünden ayırabilmesi için sesteki belirli frekanslar da vurgulanır. Bazı ses tanıma sistemleri aslında sesi birkaç ayrı frekansa böler.

Sesin hızı ve hacmi gibi diğer yönler, ses tanıma sisteminin karşılaştırmak için kullandığı referans ses örnekleriyle daha iyi eşleşecek şekilde ayarlanır. Bu filtreleme ve gürültü giderme süreçleri, genel doğruluğun iyileştirilmesine gerçekten yardımcı olur.

Ses Tanıma Sistemi Ardından Sözcük Yapmaya Başlıyor
Ses tanıma sistemlerinin konuşmayı analiz etmesinin iki popüler yolu vardır. Bunlardan birine gizli Markov modeli denir ve diğer yöntem sinir ağları aracılığıyladır.

Gizli Markov Modeli Yöntemi
Gizli Markov modeli, çoğu ses tanıma sisteminde kullanılan yöntemdir. Bu sürecin önemli bir kısmı, konuşulan sözcükleri ses birimlerine (bir dilin en küçük öğesi) ayırmaktır. Her dilde sınırlı sayıda ses birimi vardır, bu nedenle gizli Markov modeli yöntemi çok iyi çalışır.

İngilizce dilinde yaklaşık 40 ses birimi vardır. Ses tanıma sistemi bir tanesini tanımladığında, bir sonrakinin ne olacağının olasılığını belirler.

Örneğin, konuşmacı "ta" sesini çıkarırsa, bir sonraki ses biriminin "p" olması ve "dokunma" kelimesini oluşturması için kesin bir olasılık vardır. Bir sonraki ses biriminin "s" olma olasılığı da vardır, ancak bu çok daha az olasıdır. Bir sonraki ses birimi "p"ye benziyorsa, sistem kelimenin "dokunma" olduğunu yüksek bir kesinlikle kabul edebilir.

Sinir Ağı Yöntemi
Bir sinir ağı, bir insan beyninin yaptığı gibi çok şey öğrenen dijital bir beyin gibidir. Sinir ağları, yapay zeka ve derin öğrenmenin ilerlemesinde etkilidir.

Ses tanımanın kullandığı sinir ağı türüne Tekrarlayan Sinir Ağı (RNN) denir. GeeksforGeeks'e göre , RNN, "önceki adımdan [s] gelen çıktının mevcut adıma girdi olarak beslendiği bir yerdir. Bu, bir RNN bir veri parçasını işlediğinde, bir sonraki veri parçasıyla ne yapacağını etkilemek için bu veriyi kullandığı anlamına gelir - esasen deneyimden öğrenir.

Bir RNN belirli bir dile ne kadar çok maruz kalırsa, ses tanıma o kadar doğru olur. Sistem "ta" sesini 100 kez tanımlarsa ve bunu 90 kez "p" sesi takip ederse, ağ temel olarak "p"nin tipik olarak "ta"dan sonra geldiğini öğrenebilir.

Bu nedenle, ses tanıma sistemi bir ses birimi belirlediğinde, bir sonraki sesin hangisinin geleceğini tahmin etmek için biriken verileri kullanır. RNN'ler sürekli öğrendiği için ne kadar çok kullanılırsa ses tanıma o kadar doğru olur.

Ses tanıma sistemi sözcükleri tanımladıktan sonra (gizli Marvok modeliyle veya bir RNN ile) bu bilgi işlemciye gönderilir. Sistem daha sonra yapması gereken görevi yerine getirir.

Ses Tanıma Modern Teknolojide Bir Temel Haline Geldi
Ses tanıma, modern teknolojik ortamımızın büyük bir parçası haline geldi. Dünya çapında çeşitli endüstrilerde ve hizmetlerde uygulanmıştır; gerçekten de pek çok insan sesle etkinleştirilen asistanlarla tüm hayatlarını kontrol ediyor. Apple saatlerinize yüklenen Siri gibi yardımcıları bulabilirsiniz. 1952'de sadece bir rüya olan şey gerçek oldu ve yakın zamanda duracak gibi de görünmüyor.

Ses Tanıma Nasıl Çalışır?

Yorum Gönder