متا مدل هوش مصنوعی Spirit LM را معرفی کرد که میتواند با احساسات و لحن دقیقتر در مکالمات صوتی به روشی طبیعیتر به مخاطب پاسخ دهد.
اطلاع رسانی کند هدفهوش مصنوعی نوظهور Meta اولین نمونه چند وجهی این شرکت محسوب می شود که قابلیت پردازش همزمان داده های متنی و صوتی و ترکیب آنها با یکدیگر را دارد و می تواند با مدل هایی مانند GPT-4 رقابت کند.
هوش مصنوعی Spirit LM متن و گفتار را یکپارچه پردازش می کند
اکثر مدل های زبان فعلی از فرآیندهای تبدیل متن به گفتار (TTS) و تشخیص خودکار گفتار (ASR) در طول مکالمات صوتی استفاده می کنند. در این صورت بیان طبیعی کلام از بین می رود و احساس صحیح منتقل نمی شود. اما هوش مصنوعی Spirit LM Meta به گونه ای طراحی شده است که متن و گفتار را به صورت یکپارچه پردازش می کند. به این ترتیب مکالمه با او طبیعی تر به نظر می رسد.
هوش مصنوعی جدید متا در Spirit LM Base (از نشانههای آوایی برای پردازش و تولید گفتار استفاده میکند) و Spirit LM Expressive (مجهز به نشانههای بیشتری که میتوانند زیر و بم را تنظیم کنند) عرضه میشود. این نسخه ممکن است به خوبی احساسات ظریفی مانند هیجان یا غم را در گفتار تولید شده منعکس کند.
هر دو نسخه از Spirit LM AI با داده های ترکیبی متن و گفتار آموزش داده شده اند و می توانند وظایف چندوجهی مانند متن به گفتار و بالعکس را انجام دهند.
متا در اقدامی جالب و برای نشان دادن حسن نیت خود به هوش مصنوعی منبع باز، کد منبع این مدل را در گیت هاب منتشر کرده است. به گفته مارک زاکربرگ، هوش مصنوعی منبع باز نقش مهمی در افزایش بهره وری، خلاقیت و بهبود کیفیت زندگی دارد و معتقد است این فناوری به تسریع تحقیقات علمی و پزشکی کمک می کند.
بیشتر بخوانید:
ارسال نقد و بررسی