وقتی صحبت از سیستم های داده به میان می آید، همه ما عبارت “زباله داخل، زباله بیرون” را شنیده ایم. اما هوش مصنوعی Generative یک هشدار بزرگ و یک فرصت بزرگ جدید را به همراه دارد.
هوش مصنوعی مولد می تواند به تبدیل زباله های داده ها به طلای تجاری کمک کند.
داده ها همچنان بزرگترین و مهم ترین عامل در سودمندی سیستم های هوش مصنوعی هستند. الگوریتم ها در حال تبدیل شدن به یک کالا هستند، بنابراین بزرگترین تفاوت در کمیت، کیفیت و ارتباط مجموعه داده های اساسی است. و هر چه داده ها بهتر باشند، ایجاد نتایج با کیفیت آسان تر است.
اما تمایز مهمی بین داده های اصلی و نحوه ثبت و ذخیره واقعی آنها وجود دارد. سیستم های دنیای واقعی دنیا را از طریق عدسی ترک خورده و لکه دار می بینند. اما حتی اگر هر نقطه نوری مشکوک باشد، باز هم میتوانیم تصوری کلی از آنچه در حال وقوع است داشته باشیم.
به عنوان مثال، اگر حسگرهای اینترنت اشیا شما اعداد تصادفی را ضبط می کنند، بدیهی است که نمی توانید از آنها چیز مفیدی دریافت کنید. اما اگر آنها “فقط” نادرست باشند، با داده های واقعی پنهان شده در پشت پرده ای از نویز، نتیجه هنوز به طور بالقوه با تکنیک های آماری مناسب قابل استفاده است. الگوریتمهای یادگیری ماشینی میتوانند الگوهای زیربنایی را که (احتمالاً) دادههای مشاهدهشده و آشفته را ایجاد کردهاند، ثبت کنند.
اکنون، فناوریهای جدید هوش مصنوعی مولد یک گام بزرگ دیگر در برخورد با دادههای ناقص است.
مدل های زبان بزرگ در برخورد با برخی از انواع داده های آشفته بسیار خوب هستند. به عنوان مثال، محققان نشان دادهاند که مدلهای زبان بزرگ مانند GTP-4 میتوانند حتی جملات بسیار درهم را رمزگشایی کنند:
مثال شخصی: دخترم قسمت کوتاهی از کلاس اقتصاد خود را ضبط کرد (با اجازه). کیفیت وحشتناک بود – صدای معلم تقریباً با صدای نوشتن دخترم و سایر صداهای پس زمینه کاملاً خاموش شده بود. من شخصاً نمی توانستم بشنوم چه می گوید.
من ضبط را از طریق الگوریتم رونویسی منبع باز OpenAI Whisper با استفاده از کندترین و پیچیده ترین مدل موجود اجرا کردم. در رمزگشایی بسیاری از کلمات گفتاری به خوبی عمل کرد، اما شکافهایی وجود داشت، چند کلمه که به وضوح نادرست بودند، و خروجیها به سختی دنبال میشد (معلم تمایل داشت منحرف شود و به عقب برگردد).
رونوشت را گرفتم و آن را در ChatGPT 4 قرار دادم و از آن خواستم “متن را بگیرد و در جملات قرار دهد.” گویی به طور جادویی، یک خلاصه سه پاراگراف بازسازی شده و واضح از مسائل اقتصادی که معلم درباره آن صحبت کرده بود ظاهر شد. این چیزی که او نبود گفتاما به چیزی که او خیلی نزدیکتر بود منظور
مدل های زبان بزرگ در فهمیدن منظور ما خوب هستند و این اصل برای بسیاری از مشکلات داده های دنیای واقعی اعمال می شود.
به عنوان مثال، یادگیری ماشین قبلاً برای استخراج اطلاعات از اسنادی مانند فاکتورها استفاده می شود: تاریخ، مبلغ، شناسه فروشنده و غیره. اما این مدلها به دادههای آموزشی زیادی نیاز دارند و به خوبی تعمیم نمییابند – اگر سعی کنید از آنها در برابر طرح فاکتور جدیدی استفاده کنید که مدل قبلاً آن را ندیده است، میتواند خراب شود. با افزودن هوش مصنوعی مولد، سیستم در رسیدگی به موارد لبه و طرحبندیهای جدید بسیار کارآمدتر میشود.
خطراتی وجود دارد، زیرا این مدلها برای ترکیب آنچه «باید» یا «میتواند» وجود داشته باشد، طراحی شدهاند، نه صرفاً برای تجزیه و تحلیل آنچه واقعاً وجود دارد. از مثالهای قبلی، نتیجه میتواند افکاری باشد که معلم اقتصاد هرگز به آن اشاره نکرده است، یا یک شناسه فروشنده حتی اگر در سند گنجانده نشده باشد.
کشف چگونگی جلوگیری از چنین “توهماتی” در حال حاضر در خط مقدم تحقیقات هوش مصنوعی قرار دارد – با رویکردهایی که شامل درخواست از مدل برای بررسی مجدد خود، میانگین گیری نتایج چندین نمونه از مدل، یا بررسی اضافی توسط یک مدل بررسی ویژه که به طور مستقل عمل می کند. .
اما به طور کلی، هوش مصنوعی مولد یک فرصت جدید عالی برای باز کردن دادههای بیشتر به روشهای جدید، بازنگری در منابع داده موجود، نحوه استفاده از آنها برای بهبود فرآیندها – و تبدیل آنچه به نظر میرسد ناخواسته داده است، در طلای کسبوکار است.