İçinde Ne Var
Son makalemizde, şirketin Makine Öğrenimi Başkanı Dima Vypirailenko'nun rehberliğinde Rask AI'nin dudak senkronizasyonu teknolojisinin heyecan verici dünyasına dalıyoruz. Sizi, bu yenilikçi yapay zeka aracının içerik oluşturma ve dağıtımında nasıl dalgalar yarattığını ilk elden gördüğümüz bir teknoloji mükemmellik merkezi olan Brask ML Lab'ın perde arkasına götürüyoruz. Ekibimiz, sadece geleceğe uyum sağlamakla kalmayıp onu yaratan birinci sınıf makine öğrenimi mühendisleri ve VFX Sentetik Sanatçılarından oluşuyor.
Bu teknolojinin yaratıcı endüstriyi nasıl dönüştürdüğünü, maliyetleri nasıl azalttığını ve yaratıcıların dünyanın dört bir yanındaki kitlelere ulaşmasına nasıl yardımcı olduğunu keşfetmek için bize katılın.
Lip-Sync Teknolojisi Nedir?
Video yerelleştirmede karşılaşılan başlıca zorluklardan biri dudakların doğal olmayan hareketleridir. Lip-sync teknolojisi, dudak hareketlerini çok dilli ses parçalarıyla etkili bir şekilde senkronize etmeye yardımcı olmak için tasarlanmıştır.
Son makalemizden öğrendiğimiz gibi, dudak senkronizasyonu tekniği sadece zamanlamayı doğru yapmakla karşılaştırıldığında çok daha karmaşıktır - ağız hareketlerini doğru yapmanız gerekecektir. Söylenen tüm kelimeler konuşmacının yüzünde bir etki yaratacaktır, örneğin "O" harfi ağızda oval bir şekil yaratacağından "M" harfi olmayacaktır ve bu da dublaj sürecine çok daha fazla karmaşıklık katacaktır.
Daha iyi kaliteye sahip yeni Lip-sync modeli ile tanışın!
Makine öğrenimi ekibimiz mevcut dudak senkronizasyonu modelini geliştirmeye karar verdi. Bu kararın arkasındaki neden neydi ve beta sürümüne kıyasla bu sürümde ne gibi yenilikler var?
Modeli geliştirmek için aşağıdakiler de dahil olmak üzere önemli çabalar sarf edilmiştir:
- Geliştirilmiş Doğruluk: Konuşulan dilin fonetik ayrıntılarını daha iyi analiz etmek ve eşleştirmek için yapay zeka algoritmalarını geliştirdik, böylece birden fazla dilde sesle yakından senkronize olan daha doğru dudak hareketleri elde ettik.
- GeliştirilmişDoğallık: Daha gelişmiş hareket yakalama verilerini entegre ederek ve makine öğrenimi tekniklerimizi geliştirerek dudak hareketlerinin doğallığını önemli ölçüde artırdık ve karakterlerin konuşmalarının daha akıcı ve gerçekçi görünmesini sağladık.
- ArtırılmışHız ve Verimlilik: Modeli, kaliteden ödün vermeden videoları daha hızlı işleyecek şekilde optimize ettik ve büyük ölçekli yerelleştirme gerektiren projeler için daha hızlı geri dönüş süreleri sağladık.
- Kullanıcı GeriBildirimlerinin Birleştirilmesi: Beta sürümünün kullanıcılarından aktif olarak geri bildirim topladık ve belirli sorunları ele almak ve genel kullanıcı memnuniyetini artırmak için onların görüşlerini geliştirme sürecine dahil ettik.
Yapay zeka modelimiz dudak hareketlerini çevrilmiş ses ile tam olarak nasıl senkronize ediyor?
Dima: "Yapay zeka modelimiz, çevrilen sesten alınan bilgileri çerçevedeki kişinin yüzüyle ilgili bilgilerle birleştirerek çalışıyor ve ardından bunları nihai çıktıda birleştiriyor. Bu entegrasyon, dudak hareketlerinin çevrilen konuşmayla doğru bir şekilde senkronize edilmesini sağlayarak kusursuz bir izleme deneyimi sunuyor".
Premium Lip-Sync'i yüksek kaliteli içerikler için ideal kılan benzersiz özellikler nelerdir?
Dima: "Premium Lip-sync, çoklu hoparlör özelliği ve yüksek çözünürlük desteği gibi benzersiz özellikleri sayesinde yüksek kaliteli içerikleri işlemek için özel olarak tasarlanmıştır. Videoları 2K çözünürlüğe kadar işleyebilir ve görsel kalitenin ödün verilmeden korunmasını sağlar. Ayrıca, çoklu hoparlör özelliği aynı video içindeki farklı hoparlörler arasında doğru dudak senkronizasyonuna olanak tanıyarak birden fazla karakter veya hoparlör içeren karmaşık prodüksiyonlar için son derece etkili olmasını sağlar. Bu özellikler Premium Lipsync'i profesyonel düzeyde içerik hedefleyen içerik oluşturucular için en iyi seçenek haline getiriyor".
Peki Dudak Senkronizasyonu Çoklu Hoparlör Özelliği nedir?
Multi-Speaker Lip-Sync özelliği, birden fazla kişinin yer aldığı videolarda dudak hareketlerini konuşulan sesle doğru bir şekilde senkronize etmek için tasarlanmıştır. Bu gelişmiş teknoloji, tek bir karede birden fazla yüzü tanımlayıp ayırt ederek her bir kişinin dudak hareketlerinin konuşulan kelimelere göre doğru şekilde canlandırılmasını sağlar.
Çoklu Hoparlör Dudak Senkronizasyonu Nasıl Çalışır?
- Çerçeve İçinde Yüz Tanıma: Bu özellik başlangıçta video karesinde bulunan tüm yüzleri sayılarına bakmaksızın tanır. Doğru dudak senkronizasyonu için çok önemli olan her bir bireyi tanımlayabilir.
- SesEşleştirme: Video oynatımı sırasında, teknoloji ses parçasını özellikle konuşan kişiyle hizalar. Bu hassas eşleştirme işlemi, ses ve dudak hareketlerinin senkronize olmasını sağlar.
- DudakHareketi Senkronizasyonu: Konuşan kişi belirlendikten sonra, dudak senkronizasyonu özelliği dudak hareketlerini yalnızca konuşan kişi için yeniden çizer. Çerçevedeki konuşmayan bireylerin dudak hareketleri değiştirilmez ve video boyunca doğal durumlarını korurlar. Bu senkronizasyon yalnızca aktif konuşmacı için geçerli olduğundan, ekran dışı seslerin veya sahnedeki birden fazla yüzün varlığında bile etkili olur.
- Dudakların Statik Görüntülerinin İşlenmesi: İlginç bir şekilde bu teknoloji, video karesinde görünmeleri halinde dudakların statik görüntüleri üzerindeki dudak hareketlerini yeniden çizebilecek kadar sofistikedir ve çok yönlü yeteneğini gösterir.
Bu Çok Hoparlörlü Dudak Senkronizasyonu özelliği, yalnızca konuşan kişilerin dudaklarının sese uygun olarak hareket etmesini sağlayarak birden fazla konuşmacının veya karmaşık video ayarlarının olduğu sahnelerde gerçekçiliği ve izleyici katılımını artırır. Bu hedefli yaklaşım, aktif konuşmacıya odaklanmayı sürdürmeye yardımcı olur ve videolardaki grup etkileşimlerinin doğal dinamiklerini korur.
Herhangi bir dilde tek bir videodan, birden fazla dilde çeşitli teklifler içeren yüzlerce kişiselleştirilmiş video oluşturabilirsiniz. Bu çok yönlülük, pazarlamacıların farklı ve küresel kitlelerle etkileşim kurma yöntemlerinde devrim yaratarak tanıtım içeriğinin etkisini ve erişimini artırır.
Yeni Premium Lip-sync'te kalite ve işlem hızı arasında nasıl bir denge kuruyorsunuz?
Dima: "Premium Lipsync'te yüksek kaliteyi yüksek işlem hızıyla dengelemek zor bir iş, ancak modelimizin çıkarımını optimize etme konusunda önemli adımlar attık. Bu optimizasyon, mümkün olan en iyi kaliteyi makul bir hızda elde etmemizi sağlıyor".
Modeli eğitirken karşılaştığınız ilginç kusurlar veya sürprizler var mı?
Ayrıca, ağız bölgesi etrafındaki oklüzyonlarla çalışmanın oldukça zor olduğu kanıtlanmıştır. Bu unsurlar, dudak senkronizasyonu teknolojimizde gerçekçi ve doğru bir temsil elde etmek için detaylara ve sofistike modellemeye dikkat edilmesini gerektirir.
Makine öğrenimi ekibi, video materyallerini işlerken kullanıcı verilerinin gizliliğini ve korunmasını nasıl sağlıyor?
Dima: Makine öğrenimi ekibimiz kullanıcı verilerinin gizliliğini ve korunmasını çok ciddiye alıyor. Lipsync modelinde eğitim için müşteri verilerini kullanmıyoruz, böylece kimlik hırsızlığı riskini ortadan kaldırıyoruz. Modelimizi eğitmek için yalnızca uygun lisanslarla birlikte gelen açık kaynaklı verilere güveniyoruz. Ayrıca, model her kullanıcı için ayrı bir örnek olarak çalışarak nihai videonun yalnızca belirli bir kullanıcıya teslim edilmesini sağlıyor ve herhangi bir veri karışıklığını önlüyor.
Özümüzde, içerik oluşturucuları güçlendirmeye, yasal haklara ve etik şeffaflığa odaklanarak içerik oluşturmada yapay zekanın sorumlu bir şekilde kullanılmasını sağlamaya kararlıyız. Kişisel verilerinizin ve yaratıcı varlıklarınızın korunmasını sağlayarak videolarınızın, fotoğraflarınızın, seslerinizin ve benzerliklerinizin asla açık izin olmadan kullanılmayacağını garanti ediyoruz.
Dijital çağda içerik bütünlüğü ve özgünlüğüne olan bağlılığımızı yansıtan The Coalition for Content Provenance and Authenticity (C2PA) ve The Content Authenticity Initiative'in gururlu üyeleriyiz. Ayrıca, kurucumuz ve CEO'muz Maria Chmir, etik yapay zeka uygulamalarındaki liderliğimizi vurgulayan Women in AI Ethics™ dizininde tanınmaktadır.
Dudak senkronizasyonu teknolojisinin gelişimi için gelecekteki beklentiler nelerdir? Sizi özellikle heyecanlandıran belirli alanlar var mı?
Dima: Dudak senkronizasyonu teknolojimizin dijital avatarlara doğru daha fazla gelişme için bir temel oluşturabileceğine inanıyoruz. Herkesin video prodüksiyon maliyetlerine katlanmadan içerik oluşturabileceği ve yerelleştirebileceği bir gelecek hayal ediyoruz.
Kısa vadede, önümüzdeki iki ay içinde, modelimizin performansını ve kalitesini artırmaya kararlıyız. Hedefimiz 4K videolarda sorunsuz çalışmayı sağlamak ve Asya dillerine çevrilmiş videolarla işlevselliği geliştirmek. Bu gelişmeler, teknolojimizin erişilebilirliğini ve kullanılabilirliğini genişletmeyi ve dijital içerik oluşturmada yenilikçi uygulamaların önünü açmayı hedeflediğimiz için çok önemli. Dil engellerini aşmak hiç bu kadar yakın olmamıştı! Geliştirilmiş dudak senkronizasyonu işlevimizi deneyin ve bu özellik hakkındaki geri bildirimlerinizi bize gönderin.
Sıkça Sorulan Sorular
Dudak senkronizasyonu Creator Pro, Archive Pro, Business ve Enterprise planlarında mevcuttur.
Oluşturulan bir dakikalık dudak senkronizasyonu, toplam dakika bakiyenizden düşülen bir dakikaya eşittir.
Dudak senkronizasyonu dakikaları tıpkı videolarınızı dublajlarken olduğu gibi düşülür.
Dudak senkronizasyonu dublajdan ayrı olarak ücretlendirilir. Örneğin, 1 dakikalık bir videoyu 1 dile çevirmek ve dudak senkronizasyonu yapmak için 2 dakikaya ihtiyacınız vardır.
Dudak senkronizasyonu oluşturmadan önce, teknolojinin kalitesini değerlendirmek için 1 ücretsiz dakika test edebileceksiniz.
Dudak senkronizasyonu oluşturma hızı videodaki konuşmacı sayısına, süreye, kaliteye ve videonun boyutuna bağlıdır.
Örneğin, burada farklı videolar için yaklaşık dudak senkronizasyonu oluşturma hızı verilmiştir:
Tek konuşmacılı videolar
- 4 dakikalık video 1080p ≈ 29 dakika
- 10 dakika 1080p ≈ 2 saat 10 dakika
- 10 dakikalık 4K video ≈ 8 saat
3 konuşmacılı videolar:
- 10 dakika 1080p ≈ 5 saat 20 dakika
- Videonuzu YouTube, Google Drive'dan bağlantı yoluyla yükleyin veya dosyayı doğrudan cihazınızdan yükleyin. Hedef dili seçin ve çevir düğmesine tıklayın.
- "Dub video" düğmesi aracılığıyla Rask AI'da videonuza bir seslendirme ekleyin.
- Videonuzun Lip-sync ile uyumlu olup olmadığını kontrol etmek için "Lip-sync check" düğmesine tıklayın.
- Uyumluysa, Dudak senkronizasyonu düğmesine dokunarak devam edin.
- Ardından, videonuzda olmasını istediğiniz yüz sayısını seçin - "1" veya "2+", ardından "Dudak Senkronizasyonunu Başlat "a dokunun. Sadece bir uyarı, bu yüzlerin sayısı ile ilgilidir, hoparlörler ile değil.