هوش مصنوعی مولد نوعی فناوری هوش مصنوعی است که می تواند انواع مختلفی از محتوا از جمله متن، تصویر، صدا و داده های مصنوعی تولید کند. هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.
لازم به ذکر است که این فناوری بر خلاف تصوری که وجود دارد جدید نیست. هوش مصنوعی مولد در دهه 1960 در چت بات ها معرفی شد. اما در سال 2014، با معرفی شبکه های مولد تخاصمی یا GAN (نوعی الگوریتم یادگیری ماشین) هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانع کننده ای را خلق کند.
این فناوری جدید فرصت هایی را خلق کرده است که شامل تولید محتوای راحت تر، صداگذاری و دوبله بهتر فیلم ها و محتوای آموزشی غنی می شود. ولی از طرفی نگرانی های مربوط به دیپ فیک ها - تصاویر یا ویدیوهای جعلی دیجیتالی - و حملات سایبری، و معضلات دیگری را ایجاد کرد.
دو پیشرفت اخیر اضافی که در زیر با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کرده اند: ترانسفورمرها و مدل های زبان که آن ها فعال کرده اند. ترانسفورمرها نوعی یادگیری ماشینی هستند که به محققان امکان آموزش مدل های بزرگتر را بدون نیاز به تگ کردن همه داده ها از قبل می دهند. بنابراین می توان مدل های جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخ هایی با عمق بیشتری دست یافت. علاوه بر این، ترانسفورمرها مفهوم جدیدی به را ایجاد کردند که مدل ها را قادر می سازد تا ارتباطات بین کلمات را در صفحات، فصل ها و کتاب ها و نه فقط در جملات جداگانه ردیابی کنند. ترانسفورمرها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئین ها، مواد شیمیایی و DNA استفاده کنند.
هوش مصنوعی مولد با یک درخواست (که اصطلاحاً پرامپت نامیده می شود) شروع می شود که می تواند به شکل متن، تصویر، ویدئو، طرح، نت های موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی بتواند پردازش کند. سپس الگوریتم های مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمی گردانند. محتوا می تواند شامل مقاله ها، راه حل هایی برای مشکلات یا تقلبی واقعی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.
نسخه های اولیه هوش مصنوعی مولد نیازمند ارسال داده ها از طریق یک API یا یک فرآیند پیچیده بود. توسعه دهندگان باید با ابزارهای ویژه آشنا می شدند و برنامه های کاربردی را با استفاده از زبان هایی مانند پایتون می نوشتند.
اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان می دهد درخواست خود را به زبان های انسان ها توصیف کنید. پس از پاسخ اولیه، می توانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که می خواهید محتوای تولید شده منعکس کند، سفارشی کنید.
مدل های هوش مصنوعی مولد، الگوریتم های مختلف هوش مصنوعی را برای نمایش و پردازش محتوا ترکیب می کنند. به عنوان مثال، برای تولید متن، تکنیک های مختلف پردازش زبان طبیعی، نویسه های خام (مانند حروف، علائم نقطه گذاری و کلمات) را به جملات، بخش هایی از گفتار، موجودیت ها و کنش ها تبدیل می کنند که با استفاده از تکنیک های رمزگذاری متعدد به صورت وکتور نمایش داده می شوند. به طور مشابه، تصاویر به عناصر بصری مختلف تبدیل می شوند. یکی از مشکلات اساسی این است که این تکنیک ها می توانند سوگیری ها، نژادپرستی، فریبکاری و خفقان موجود در داده های آموزشی را منعکس کنند.
هنگامی که توسعه دهندگان راهی برای نشان دادن جهان می گیرند، از یک شبکه عصبی خاص برای تولید محتوای جدید در پاسخ به یک پرس و جو یا درخواست استفاده می کنند. تکنیک هایی مانند GAN و رمزگذارهای خودکار متغیر (VAE) - شبکه های عصبی با رمزگشا و رمزگذار - برای تولید چهره های واقعی انسان مناسب هستند.
پیشرفت های اخیر در ترانسفورمرهایی مانند BERT، GPT OpenAI و Google AlphaFold همچنین منجر به شبکه های عصبی شده اند که نه تنها می توانند زبان، تصاویر و پروتئین ها را رمزگذاری کنند، بلکه محتوای جدیدی نیز تولید می کنند.
ChatGPT، Dall-E و Bard رابط های هوش مصنوعی مولد محبوب هستند.
دال-ای. Dall-E که بر روی مجموعه داده های بزرگی از تصاویر و توضیحات متنی مرتبط با آنها آموزش دیده است، نمونه ای از یک برنامه کاربردی هوش مصنوعی چندوجهی است که اتصالات را در رسانه های مختلف مانند بینایی، متن و صدا شناسایی می کند. در این صورت معنای کلمات را به عناصر بصری متصل می کند. این رابط با استفاده از پیاده سازی GPT OpenAI در سال 2021 ساخته شد. Dall-E 2، نسخه دوم و با قابلی بیشتر، در سال 2022 منتشر شد که کاربران را قادر می سازد تا تصاویر را در سبک های مختلف تولید کنند.
ChatGPT. چت بات مجهز به هوش مصنوعی که در نوامبر 2022 طوفانی به پا کرد و در صدر اخبار تکنولوژی جهان قرار گرفت، بر اساس OpenAI GPT-3.5 ساخته شده است. OpenAI راهی برای تعامل و تنظیم دقیق پاسخ های متنی از طریق رابط چت با بازخورد تعاملی ارائه کرده است. نسخه های قبلی GPT فقط از طریق یک API قابل دسترسی بودند. GPT-4 در 14 مارس 2023 منتشر شد. ChatGPT تاریخچه مکالمه خود با یک کاربر را در نتایج خود گنجانده است و یک مکالمه واقعی را شبیه سازی می کند. پس از محبوبیت باورنکردنی GPT جدید، مایکروسافت سرمایه گذاری قابل توجهی را در OpenAI صورت داد و نسخه ای از GPT را در موتور جستجوی Bing خود ادغام کرد.
گوگل بارد هم که بعدها به جمینای تغییر نام داد، یکی دیگر از رهبران اولیه در تکنیک های هوش مصنوعی مولد برای پردازش زبان، پروتئین ها و دیگر انواع محتوا بود. تصمیم مایکروسافت برای پیاده سازی GPT در بینگ، گوگل را وادار کرد تا یک چت بات عمومی به نام گوگل بارد را به بازار عرضه کند که بر اساس نسخه ای سبک از خانواده LaMDA از مدل های زبان بزرگ ساخته شده است.
گوگل متحمل ضرر قابل توجهی در قیمت سهام پس از عرضه سریع بارد شد، زیرا این چت بات اشتباهات بسیار وحشتناکی را در آغاز کار خود انجام داد. در عین حال، پیاده سازی های مایکروسافت و ChatGPT نیز به دلیل نتایج نادرست و رفتار نامنظم، در اولین فعالیت های خود بخشی از محبوبیت خود را از دست دادند. گوگل از آن زمان نسخه جدیدی از چت بات را که بر روی پیشرفته ترین LLM خود، PaLM 2 ساخته شده است، رونمایی کرده است که به چت بات آن اجازه می دهد در پاسخ به پرسش های کاربران کارآمدتر و بصری تر عمل کند.
هوش مصنوعی مولد را می توان در موارد استفاده مختلف برای تولید هر نوع محتوا به کار برد. این فناوری به لطف پیشرفت هایی مانند GPT که می تواند برای برنامه های مختلف تنظیم شود، برای همه کاربران در دسترس تر می شود. برخی از موارد استفاده برای هوش مصنوعی مولد شامل موارد زیر است:
هوش مصنوعی مولد را می توان به طور گسترده در بسیاری از زمینه های کسب و کار به کار برد. می تواند تفسیر و درک محتوای موجود را آسان تر کند و به طور خودکار محتوای جدید ایجاد کند. توسعه دهندگان در حال بررسی راه هایی هستند که هوش مصنوعی مولد می تواند گردش های کاری موجود را بهبود بخشد، با توجه به تطبیق گردش های کاری کاملاً برای استفاده از این فناوری. برخی از مزایای بالقوه پیاده سازی هوش مصنوعی مولد شامل موارد زیر است:
پیاده سازی های اولیه هوش مصنوعی مولد به وضوح محدودیت های فراوان آن را نشان می دهد. برخی از چالش هایی که هوش مصنوعی مولد ارائه می کند ناشی از رویکردهای خاص مورد استفاده برای اجرای موارد استفاده خاص است. برای مثال، خواندن خلاصه ای از یک موضوع پیچیده آسان تر از توضیحی است که حاوی منابع مختلفی است که نکات کلیدی را پشتیبانی می کنند. با این حال، خوانایی خلاصه به قیمت این است که کاربر بتواند بررسی کند که اطلاعات از کجا آمده است.
در اینجا برخی از محدودیت هایی که باید در هنگام پیاده سازی یا استفاده از یک برنامه هوش مصنوعی مولد در نظر گرفته شود آورده شده است:
ظهور هوش مصنوعی مولد نگرانی های مختلفی را برانگیخته است. این نگرانی ها شامل کیفیت نتایج، پتانسیل سوء استفاده و اختلال در مدل های تجاری مربوط می شود. در اینجا برخی از انواع خاصی از مسائل مشکل ساز ناشی از هوش مصنوعی مولد آورده شده است:
ابزارهای مولد هوش مصنوعی برای حالت های مختلف مانند متن، تصویر، موسیقی، کد و صدا وجود دارد. برخی از تولیدکنندگان محتوای AI محبوب برای کاوش عبارتند از:
ابزارهای تولید متن عبارتند از GPT، Jasper، AI-Writer و Lex.
ابزارهای تولید تصویر عبارتند از Dall-E 2، Midjourney و Stable Diffusion.
ابزارهای تولید موسیقی عبارتند از Amper، Dadabots و MuseNet.
ابزارهای تولید کد عبارتند از CodeStarter، Codex، GitHub Copilot و Tabnine.
ابزارهای ترکیب صدا عبارتند از Descript، Listnr و Podcast.ai.
شرکت های ابزار طراحی تراشه هوش مصنوعی شامل Synopsys، Cadence، Google و Nvidia هستند.
فناوری های جدید هوش مصنوعی گاهی اوقات به عنوان فناوری های انقلابی همچون بخار، الکتریسیته و کامپیوتر توصیف می شوند، زیرا می توانند عمیقاً بر بسیاری از صنایع و موارد استفاده تأثیر بگذارند. مهم است که در نظر داشته باشید، مانند فناوری های همه منظوره قبلی، اغلب دهه ها طول می کشد تا افراد بهترین راه را برای سازماندهی گردش های کاری برای استفاده از رویکرد جدید به جای سرعت بخشیدن به بخش های کوچک گردش کار موجود بیابند. در اینجا چند روش وجود دارد که کاربردهای هوش مصنوعی مولد می توانند بر صنایع مختلف تأثیر بگذارند: