Blog'a Geri Dön

Perde Arkası: Makine Öğrenimi Laboratuvarımız

Maria Zhukova

Brask'ta kopya şefi

Yayınlandı

30 Nisan 2024

,

16

dakika okuma

,

İçinde Ne Var

Son makalemizde, şirketin Makine Öğrenimi Başkanı Dima Vypirailenko'nun rehberliğinde Rask AI'nin dudak senkronizasyonu teknolojisinin heyecan verici dünyasına dalıyoruz. Sizi, bu yenilikçi yapay zeka aracının içerik oluşturma ve dağıtımında nasıl dalgalar yarattığını ilk elden gördüğümüz bir teknoloji mükemmellik merkezi olan Brask ML Lab'ın perde arkasına götürüyoruz. Ekibimiz, sadece geleceğe uyum sağlamakla kalmayıp onu yaratan birinci sınıf makine öğrenimi mühendisleri ve VFX Sentetik Sanatçılarından oluşuyor.

Bu teknolojinin yaratıcı endüstriyi nasıl dönüştürdüğünü, maliyetleri nasıl azalttığını ve yaratıcıların dünyanın dört bir yanındaki kitlelere ulaşmasına nasıl yardımcı olduğunu keşfetmek için bize katılın.

Lip-Sync Teknolojisi Nedir?

Video yerelleştirmede karşılaşılan başlıca zorluklardan biri dudakların doğal olmayan hareketleridir. Lip-sync teknolojisi, dudak hareketlerini çok dilli ses parçalarıyla etkili bir şekilde senkronize etmeye yardımcı olmak için tasarlanmıştır.

Son makalemizden öğrendiğimiz gibi, dudak senkronizasyonu tekniği sadece zamanlamayı doğru yapmakla karşılaştırıldığında çok daha karmaşıktır - ağız hareketlerini doğru yapmanız gerekecektir. Söylenen tüm kelimeler konuşmacının yüzünde bir etki yaratacaktır, örneğin "O" harfi ağızda oval bir şekil yaratacağından "M" harfi olmayacaktır ve bu da dublaj sürecine çok daha fazla karmaşıklık katacaktır.

Daha iyi kaliteye sahip yeni Lip-sync modeli ile tanışın!

Makine öğrenimi ekibimiz mevcut dudak senkronizasyonu modelini geliştirmeye karar verdi. Bu kararın arkasındaki neden neydi ve beta sürümüne kıyasla bu sürümde ne gibi yenilikler var?

Dima Vypirailenko

Rask AI'da Makine Öğrenimi Başkanı

Dudak senkronizasyonu sonuçlarımız olağanüstü olmasına ve teknolojimizle ilgili TV yayınları ve röportajlar da dahil olmak üzere medyanın büyük ilgisini çekmesine rağmen, dudak senkronizasyonu modelimizin beta sürümünü yayınladığımızda, tüm kullanıcı segmentleri için kalite beklentilerini karşılamadığını fark ettik. Öncelikli hedefimiz bu açığı kapatmak ve kullanıcılarımızın içeriklerinin sadece ses bileşenini değil video bileşenini de etkili bir şekilde yerelleştirebilmelerini sağlamaktı.

Modeli geliştirmek için aşağıdakiler de dahil olmak üzere önemli çabalar sarf edilmiştir:

Geliştirilmiş Doğruluk: Konuşulan dilin fonetik ayrıntılarını daha iyi analiz etmek ve eşleştirmek için yapay zeka algoritmalarını geliştirdik, böylece birden fazla dilde sesle yakından senkronize olan daha doğru dudak hareketleri elde ettik.
‍GeliştirilmişDoğallık: Daha gelişmiş hareket yakalama verilerini entegre ederek ve makine öğrenimi tekniklerimizi geliştirerek dudak hareketlerinin doğallığını önemli ölçüde artırdık ve karakterlerin konuşmalarının daha akıcı ve gerçekçi görünmesini sağladık.
‍ArtırılmışHız ve Verimlilik: Modeli, kaliteden ödün vermeden videoları daha hızlı işleyecek şekilde optimize ettik ve büyük ölçekli yerelleştirme gerektiren projeler için daha hızlı geri dönüş süreleri sağladık.
‍Kullanıcı GeriBildirimlerinin Birleştirilmesi: Beta sürümünün kullanıcılarından aktif olarak geri bildirim topladık ve belirli sorunları ele almak ve genel kullanıcı memnuniyetini artırmak için onların görüşlerini geliştirme sürecine dahil ettik.

Yapay zeka modelimiz dudak hareketlerini çevrilmiş ses ile tam olarak nasıl senkronize ediyor?

Dima: "Yapay zeka modelimiz, çevrilen sesten alınan bilgileri çerçevedeki kişinin yüzüyle ilgili bilgilerle birleştirerek çalışıyor ve ardından bunları nihai çıktıda birleştiriyor. Bu entegrasyon, dudak hareketlerinin çevrilen konuşmayla doğru bir şekilde senkronize edilmesini sağlayarak kusursuz bir izleme deneyimi sunuyor".

Premium Lip-Sync'i yüksek kaliteli içerikler için ideal kılan benzersiz özellikler nelerdir?

Dima: "Premium Lip-sync, çoklu hoparlör özelliği ve yüksek çözünürlük desteği gibi benzersiz özellikleri sayesinde yüksek kaliteli içerikleri işlemek için özel olarak tasarlanmıştır. Videoları 2K çözünürlüğe kadar işleyebilir ve görsel kalitenin ödün verilmeden korunmasını sağlar. Ayrıca, çoklu hoparlör özelliği aynı video içindeki farklı hoparlörler arasında doğru dudak senkronizasyonuna olanak tanıyarak birden fazla karakter veya hoparlör içeren karmaşık prodüksiyonlar için son derece etkili olmasını sağlar. Bu özellikler Premium Lipsync'i profesyonel düzeyde içerik hedefleyen içerik oluşturucular için en iyi seçenek haline getiriyor".

Peki Dudak Senkronizasyonu Çoklu Hoparlör Özelliği nedir?

Multi-Speaker Lip-Sync özelliği, birden fazla kişinin yer aldığı videolarda dudak hareketlerini konuşulan sesle doğru bir şekilde senkronize etmek için tasarlanmıştır. Bu gelişmiş teknoloji, tek bir karede birden fazla yüzü tanımlayıp ayırt ederek her bir kişinin dudak hareketlerinin konuşulan kelimelere göre doğru şekilde canlandırılmasını sağlar.

Çoklu Hoparlör Dudak Senkronizasyonu Nasıl Çalışır?

Çerçeve İçinde Yüz Tanıma: Bu özellik başlangıçta video karesinde bulunan tüm yüzleri sayılarına bakmaksızın tanır. Doğru dudak senkronizasyonu için çok önemli olan her bir bireyi tanımlayabilir.
‍SesEşleştirme: Video oynatımı sırasında, teknoloji ses parçasını özellikle konuşan kişiyle hizalar. Bu hassas eşleştirme işlemi, ses ve dudak hareketlerinin senkronize olmasını sağlar.
‍DudakHareketi Senkronizasyonu: Konuşan kişi belirlendikten sonra, dudak senkronizasyonu özelliği dudak hareketlerini yalnızca konuşan kişi için yeniden çizer. Çerçevedeki konuşmayan bireylerin dudak hareketleri değiştirilmez ve video boyunca doğal durumlarını korurlar. Bu senkronizasyon yalnızca aktif konuşmacı için geçerli olduğundan, ekran dışı seslerin veya sahnedeki birden fazla yüzün varlığında bile etkili olur.
‍Dudakların Statik Görüntülerinin İşlenmesi: İlginç bir şekilde bu teknoloji, video karesinde görünmeleri halinde dudakların statik görüntüleri üzerindeki dudak hareketlerini yeniden çizebilecek kadar sofistikedir ve çok yönlü yeteneğini gösterir.

Bu Çok Hoparlörlü Dudak Senkronizasyonu özelliği, yalnızca konuşan kişilerin dudaklarının sese uygun olarak hareket etmesini sağlayarak birden fazla konuşmacının veya karmaşık video ayarlarının olduğu sahnelerde gerçekçiliği ve izleyici katılımını artırır. Bu hedefli yaklaşım, aktif konuşmacıya odaklanmayı sürdürmeye yardımcı olur ve videolardaki grup etkileşimlerinin doğal dinamiklerini korur.

Herhangi bir dilde tek bir videodan, birden fazla dilde çeşitli teklifler içeren yüzlerce kişiselleştirilmiş video oluşturabilirsiniz. Bu çok yönlülük, pazarlamacıların farklı ve küresel kitlelerle etkileşim kurma yöntemlerinde devrim yaratarak tanıtım içeriğinin etkisini ve erişimini artırır.

Yeni Premium Lip-sync'te kalite ve işlem hızı arasında nasıl bir denge kuruyorsunuz?

Dima: "Premium Lipsync'te yüksek kaliteyi yüksek işlem hızıyla dengelemek zor bir iş, ancak modelimizin çıkarımını optimize etme konusunda önemli adımlar attık. Bu optimizasyon, mümkün olan en iyi kaliteyi makul bir hızda elde etmemizi sağlıyor".

Dima Vypirailenko

Rask AI'da Makine Öğrenimi Başkanı

Kullanıcının videosundan yalnızca gerekli bilgileri işlemeye odaklanıyoruz, bu da modelin işlem süresini önemli ölçüde hızlandırıyor. Modelimizin analiz etmesi gereken verileri düzene sokarak, profesyonel içerik oluşturucuların taleplerini karşılayarak hem verimliliği hem de yüksek kaliteli çıktının korunmasını sağlıyoruz.

Modeli eğitirken karşılaştığınız ilginç kusurlar veya sürprizler var mı?

Dima Vypirailenko

Rask AI'da Makine Öğrenimi Başkanı

Evet, özellikle sadece dudakların değil, yüz kıllarının ve dişlerin de doğru görünmesini sağlamak konusunda karşılaştığımız birkaç ilginç zorluk var. Sanki hepimiz bir noktada diş hekimliği diploması almışız gibi!

Ayrıca, ağız bölgesi etrafındaki oklüzyonlarla çalışmanın oldukça zor olduğu kanıtlanmıştır. Bu unsurlar, dudak senkronizasyonu teknolojimizde gerçekçi ve doğru bir temsil elde etmek için detaylara ve sofistike modellemeye dikkat edilmesini gerektirir.

Makine öğrenimi ekibi, video materyallerini işlerken kullanıcı verilerinin gizliliğini ve korunmasını nasıl sağlıyor?

Dima: Makine öğrenimi ekibimiz kullanıcı verilerinin gizliliğini ve korunmasını çok ciddiye alıyor. Lipsync modelinde eğitim için müşteri verilerini kullanmıyoruz, böylece kimlik hırsızlığı riskini ortadan kaldırıyoruz. Modelimizi eğitmek için yalnızca uygun lisanslarla birlikte gelen açık kaynaklı verilere güveniyoruz. Ayrıca, model her kullanıcı için ayrı bir örnek olarak çalışarak nihai videonun yalnızca belirli bir kullanıcıya teslim edilmesini sağlıyor ve herhangi bir veri karışıklığını önlüyor.

Özümüzde, içerik oluşturucuları güçlendirmeye, yasal haklara ve etik şeffaflığa odaklanarak içerik oluşturmada yapay zekanın sorumlu bir şekilde kullanılmasını sağlamaya kararlıyız. Kişisel verilerinizin ve yaratıcı varlıklarınızın korunmasını sağlayarak videolarınızın, fotoğraflarınızın, seslerinizin ve benzerliklerinizin asla açık izin olmadan kullanılmayacağını garanti ediyoruz.

Dijital çağda içerik bütünlüğü ve özgünlüğüne olan bağlılığımızı yansıtan The Coalition for Content Provenance and Authenticity (C2PA) ve The Content Authenticity Initiative'in gururlu üyeleriyiz. Ayrıca, kurucumuz ve CEO'muz Maria Chmir, etik yapay zeka uygulamalarındaki liderliğimizi vurgulayan Women in AI Ethics™ dizininde tanınmaktadır.

Dudak senkronizasyonu teknolojisinin gelişimi için gelecekteki beklentiler nelerdir? Sizi özellikle heyecanlandıran belirli alanlar var mı?

Dima: Dudak senkronizasyonu teknolojimizin dijital avatarlara doğru daha fazla gelişme için bir temel oluşturabileceğine inanıyoruz. Herkesin video prodüksiyon maliyetlerine katlanmadan içerik oluşturabileceği ve yerelleştirebileceği bir gelecek hayal ediyoruz.

Kısa vadede, önümüzdeki iki ay içinde, modelimizin performansını ve kalitesini artırmaya kararlıyız. Hedefimiz 4K videolarda sorunsuz çalışmayı sağlamak ve Asya dillerine çevrilmiş videolarla işlevselliği geliştirmek. Bu gelişmeler, teknolojimizin erişilebilirliğini ve kullanılabilirliğini genişletmeyi ve dijital içerik oluşturmada yenilikçi uygulamaların önünü açmayı hedeflediğimiz için çok önemli. Dil engellerini aşmak hiç bu kadar yakın olmamıştı! Geliştirilmiş dudak senkronizasyonu işlevimizi deneyin ve bu özellik hakkındaki geri bildirimlerinizi bize gönderin.

Sıkça Sorulan Sorular

Okunması Gerekenler