هوش مصنوعی Spirit LM معرفی شد. یک متامدل منبع باز که متن و گفتار را ترکیب می کند – بازیگرها

هوش مصنوعی Spirit LM معرفی شد. یک متامدل منبع باز که متن و گفتار را ترکیب می کند – بازیگرها

متا مدل هوش مصنوعی Spirit LM را معرفی کرد که می‌تواند با احساسات و لحن دقیق‌تر در مکالمات صوتی به روشی طبیعی‌تر به مخاطب پاسخ دهد.

اطلاع رسانی کند هدفهوش مصنوعی نوظهور Meta اولین نمونه چند وجهی این شرکت محسوب می شود که قابلیت پردازش همزمان داده های متنی و صوتی و ترکیب آنها با یکدیگر را دارد و می تواند با مدل هایی مانند GPT-4 رقابت کند.

راهنمای خرید بازیگرها

هوش مصنوعی Spirit LM متن و گفتار را یکپارچه پردازش می کند

اکثر مدل های زبان فعلی از فرآیندهای تبدیل متن به گفتار (TTS) و تشخیص خودکار گفتار (ASR) در طول مکالمات صوتی استفاده می کنند. در این صورت بیان طبیعی کلام از بین می رود و احساس صحیح منتقل نمی شود. اما هوش مصنوعی Spirit LM Meta به گونه ای طراحی شده است که متن و گفتار را به صورت یکپارچه پردازش می کند. به این ترتیب مکالمه با او طبیعی تر به نظر می رسد.

هوش مصنوعی جدید متا در Spirit LM Base (از نشانه‌های آوایی برای پردازش و تولید گفتار استفاده می‌کند) و Spirit LM Expressive (مجهز به نشانه‌های بیشتری که می‌توانند زیر و بم را تنظیم کنند) عرضه می‌شود. این نسخه ممکن است به خوبی احساسات ظریفی مانند هیجان یا غم را در گفتار تولید شده منعکس کند.

هوش مصنوعی Spirit LM معرفی شد. یک متامدل منبع باز که متن و گفتار را ترکیب می کند.هوش مصنوعی Spirit LM معرفی شد. یک متامدل منبع باز که متن و گفتار را ترکیب می کند.

هر دو نسخه از Spirit LM AI با داده های ترکیبی متن و گفتار آموزش داده شده اند و می توانند وظایف چندوجهی مانند متن به گفتار و بالعکس را انجام دهند.

متا در اقدامی جالب و برای نشان دادن حسن نیت خود به هوش مصنوعی منبع باز، کد منبع این مدل را در گیت هاب منتشر کرده است. به گفته مارک زاکربرگ، هوش مصنوعی منبع باز نقش مهمی در افزایش بهره وری، خلاقیت و بهبود کیفیت زندگی دارد و معتقد است این فناوری به تسریع تحقیقات علمی و پزشکی کمک می کند.

بیشتر بخوانید: