Google, Geliştiricilere Özel Konuşma Metin Hizmeti Başlattı

1

Google, Cloud Text-to-Speech API’nin büyük bir revizyonunu başlattıktan yalnızca birkaç hafta sonra, bu hizmetin konuşmadan metne ses tanıma hizmetine yönelik bir güncellemeyi de duyurdu.

Yeni ve geliştirilmiş Cloud Speech to Text API, önemli ölçüde geliştirilmiş ses tanıma performansı vaat ediyor. Yeni API, Google’ın tüm testlerinde kelime hatalarında yüzde 54’lük bir azalma olacağını, ancak bazı bölgelerde sonuçların aslında bundan daha iyi olduğunu belirtiyor.

Bu iyileştirmenin bir parçası, artık geliştiricilerin bu kullanım durumuna dayanan farklı makine öğrenim modelleri arasında seçim yapmalarına olanak veren konuşmadan – metne API’daki yeni ve önemli bir özellik.

Yeni API şu anda bu modellerin dördünü sunuyor. Örneğin, kısa süreli sorgular ve sesli komutlar için olduğu gibi, telefon görüşmelerinden gelen sesleri anlamak ve videolardan ses işlemek için bir tane daha var.

Dördüncü model, Google’ın diğer tüm senaryolar için önerdiği yeni varsayılan değerdir.
Bu yeni konuşma tanıma modellerine ek olarak Google, hizmeti yeni bir noktalama modeli ile de güncelliyor.

Google ekibinin itiraf ettiği gibi, çeviriler uzun zamandır oldukça alışılmadık sayıda noktalama işaretine maruz kalmıştır.

Google, yeni modelinin daha az yayınlanmış cümleler ve daha fazla virgül, nokta ve soru işareti içeren çok daha okunaklı geçişlerle sonuçlandığını vaat ediyor.

Bu güncellemeyle, Google artık geliştiricilerin kopyalanan seslerini veya videolarını bazı temel meta verilerle etiketlemelerine de olanak sağlıyor.

Geliştiriciye hemen bir faydası yok, ancak Google, bir sonraki kullanıcılara hangi yeni özellikleri önceliklendireceğine karar vermek için tüm kullanıcıların toplam bilgilerini kullanacağını söylüyor.

Google, bu hizmet ücretlendirilmesinde küçük bir değişiklik yapmaktadır. Daha önce olduğu gibi, ses transkriptleri 15 saniyede 0,006 dolar. Video modelinin maliyeti iki kat daha fazla olsa da, 15 saniye başına 0,012 dolar olacak, ancak bu yeni modelin kullanılması 15 saniye başına 0,006 ABD dolarına mal olacak.

[Toplam:1    Ortalama:5/5]

1 YORUM

CEVAP VER

Please enter your comment!
Please enter your name here