CHATGPT چیست؟

CHATGPT

 

این مطلب مخصوص متخصصان نرم افزار و حرفه ای هاست.

 

ChatGPT نوعی هوش مصنوعی است که به عنوان مدل زبان بزرگ (LLM) شناخته می شود.

متنی شبیه انسان را بر اساس ورودی دریافت می کند. برای توضیح نحوه کارکرد آن، اجازه دهید آن را با استفاده از قیاس های بصری به سه جزء اصلی تقسیم کنیم:

 

1. آموزش داده های متنی (یادگیری از کتاب و مکالمات)

2. درک زمینه (معنا ساختن یک مکالمه)

3.  ایجاد پاسخ (پیش بینی کلمه بعدی مانند تکمیل خودکار در استروئیدها)

 

1. آموزش داده های متنی - مانند یادگیری از یک کتابخانه غول پیکر

تصور کنید با دادن دسترسی به بزرگترین کتابخانه جهان به کودک یاد دهید چگونه بنویسد. این کودک (میلیون ها کتاب، مقاله و مکالمه) می خواند، اما به جای اینکه کلمه به کلمه آنها را حفظ کند، (الگوهایی را در نحوه استفاده از کلمات در کنار هم یاد می گیرد).

 

ChatGPT با استفاده از متن عظیمی از اینترنت کتاب، ویکی پدیا، مقالات خبری، مقالات علمی و موارد دیگر آموزش داده شد. واقعیت های خاصی را مانند پایگاه داده ذخیره نمی کند، بلکه **روابط آماری بین کلمات را یاد می گیرد.

 

قیاس: مثل کسی که هزاران رمان پلیسی خوانده است به آن فکر کنید. وقتی چند جمله اول یک داستان مرموز جدید را می شنوند، می توانند حدس بزنند که بعداً چه اتفاقی می افتد - نه به این دلیل که داستان ها را حفظ کرده اند، بلکه به این دلیل که الگوهچای کافی برای پیش بینی نتایج احتمالی را دیده اند.

 

روند فنی:

- مدل با دادن جمله ای با کلمات گمشده و تلاش برای پیش بینی آنها یاد می گیرد.

- با استفاده از تکنیکی به نام آموزش عمیق مبتنی بر ترانسفورموتور که به درک روابط بلندمدت بین کلمات کمک می کند، خود را اصلاح می کند.

- تنظیمات داخلی خود را تنظیم می کند (میلیاردها مقدار عددی به نام "پارامترها") تا دقت خود را در طول زمان بهبود بخشد.

 

آموزش عمیق مبتنی بر ترانسفورموتور یعنی چه؟ 

برای درک این موضوع، بیایید آن را به اجزای اصلی‌اش تقسیم کنیم و با استفاده از تشبیه‌های ساده و شهودی توضیح دهیم: 

 

1. آموزش عمیق چیست؟ (مثل یادگیری مهارت‌های پیچیده) 

2. ترانسفورماتور چیست؟(مثل یک مغز فوق‌العاده که روی نکات مهم تمرکز می‌کند) 

3. چگونه ترانسفورماتورها در آموزش عمیق استفاده می‌شوند؟(مثل بهینه‌سازی نحوه پردازش اطلاعات در یک مغز مصنوعی) 

 

1. آموزش عمیق چیست؟ (مثل یادگیری مهارت‌های پیچیده) 

آموزش عمیق (Deep Learning) شاخه‌ای از "یادگیری ماشین" است که در آن از "شبکه‌های عصبی مصنوعی" با "لایه‌های زیاد استفاده می‌شود. این شبکه‌ها می‌توانند الگوهای پیچیده را در داده‌ها یاد بگیرند. 

فرض کنید می‌خواهید یک کودک را آموزش دهید که بتواند انواع میوه‌ها را بشناسد. در ابتدا، او فقطی‌تواند بگوید «این یک میوه است». اما با تمرین بیشتر و دیدن نمونه‌های بیشتر، می‌تواند بفهمد که چه چیزی یک سیب را از یک پرتقال متمایز می‌کند. در نهایت، وقتی تجربه‌اش خیلی زیاد شود، حتی می‌تواند انواع مختلف سیب را از هم تشخیص دهد. 

  • شبکه عصبی شامل لایه‌های متوالی از "نورون‌های مصنوعی" است که داده‌ها را پردازش می‌کنند. 
  • هر لایه "ویژگی‌های پیچیده‌تری" را یاد می‌گیرد: لایه‌های اولیه فقط خطوط و رنگ‌ها را تشخیص می‌دهند، اما لایه‌های بالاتر می‌توانند مفاهیم انتزاعی‌تر را یاد بگیرند. 
  • مدل با استفاده از "پس‌انتشار خطا (Backpropagation)" تنظیم می‌شود تا دقت آن به مرور افزایش یابد. 

 

پس‌انتشار خطا (Backpropagation) چیست و چگونه کار می‌کند؟

پس‌انتشار خطا (Backpropagation) یک روش کلیدی در آموزش شبکه‌های عصبی مصنوعی است که به مدل کمک می‌کند تا **خطاهای خود را اصلاح کند و یاد بگیرد. 

 

فرض کنید می‌خواهید پرتاب دارت را یاد بگیرید. اگر اولین پرتاب شما به هدف نخورد، شما مسیر پرتاب را بررسی کرده و آن را اصلاح می‌کنید. این فرآیند "اصلاح بر اساس خطا" را می‌توان مشابه پس‌انتشار خطا دانست. 

 

در پس‌انتشار خطا، مدل یادگیری خود را از طریق سه مرحله بهبود می‌دهد: 

1. پیش‌بینی اولیه (Forward Pass) مدل یک خروجی تولید می‌کند. 

2. محاسبه خطا میزان اشتباه مدل با مقدار واقعی مقایسه می‌شود. 

3. اصلاح وزن‌ها (Backward Pass) وزن‌های شبکه عصبی اصلاح می‌شوند تا خطا کمتر شود. 

2. ترانسفورماتور چیست؟(مثل یک مغز فوق‌العاده که روی نکات مهم تمرکز می‌کند) 

 

ترانسفورماتور (Transforme) معماری‌ای است که در سال ۲۰۱۷ توسط محققان گوگل معرفی شد و انقلابی در پردازش زبان طبیعی (NLP) ایجاد کرد. 

 

مشکل مدل‌های قدیمی: 

قبل از ترانسفورماتورها، مدل‌های زبانی از معماری‌های RNN (شبکه‌های عصبی بازگشتی) و LSTM استفاده می‌کردند. مشکل این روش‌ها این بود که: 

  • برای پردازش جملات طولانی به خوبی کار نمی‌کردند. 
  • کلمات اولیه جمله را هنگام رسیدن به انتهای جمله فراموش می‌کردند. 
  • یادگیری آن‌ها کند بود و نیاز به پردازش دنباله‌ای (یک کلمه در یک زمان) داشتند. 

 

راه‌حل ترانسفورماتور: 

ترانسفورماتورها برخلاف RNN، "تمام کلمات را همزمان پردازش می‌کنند" و از یک مفهوم به نام "مکانیزم توجه (Attention Mechanism)" استفاده می‌کنند که به آن‌ها کمک می‌کند بفهمند کدام قسمت‌های جمله مهم‌تر هستند. 

 

فرض کنید در حال خواندن یک کتاب هستید و معلم از شما می‌خواهد به نکات کلیدی توجه کنید. به جای اینکه کل کتاب را خط به خط بخوانید، نگاهتان را مستقیماً به قسمت‌های مهم‌تر می‌اندازید. ترانسفورماتور هم چنین کاری را انجام می‌دهد: "فقط به بخش‌های مهم توجه می‌کند و بقیه را در اولویت کمتری قرار می‌دهد." 

 

3. چگونه ترانسفورماتورها در آموزش عمیق استفاده می‌شوند؟ (مثل بهینه‌سازی مغز مصنوعی) 

 

در مدل‌های مبتنی بر ترانسفورماتور (مثل GPT"" و BERT)، فرآیند یادگیری به این شکل است:

 

CHATGPT

 

مرحله ۱: پردازش همزمان تمام کلمات

برخلاف مدل‌های قدیمی که یک کلمه را در یک زمان پردازش می‌کردند، ترانسفورماتورها "همه کلمات یک جمله را همزمان پردازش می‌کنند"

 

مرحله ۲: محاسبه اهمیت هر کلمه (مکانیزم توجه - Attention Mechanism

  • مدل یاد می‌گیرد که بعضی از کلمات در جمله مهم‌تر از بقیه هستند. 
  • برای این کار، از ماتریس‌های توجه (Attention Matrices) استفاده می‌کند تا میزان اهمیت هر کلمه نسبت به بقیه را مشخص کند. 

 

مرحله ۳: یادگیری عمیق و تنظیم وزن‌ها 

  • مدل ابتدا با داده‌های متنی زیادی آموزش داده می‌شود. 
  • از "پس‌انتشار خطا"و "بهینه‌سازی پارامترها" برای بهبود دقت مدل استفاده می‌شود. 

 

آموزش عمیق یعنی یادگیری الگوهای پیچیده از داده‌ها با استفاده از شبکه‌های عصبی چندلایه. 

ترانسفورماتورها مدل‌هایی هستند که از مکانیزم توجه (Attention) برای فهم بهتر متن استفاده می‌کنند. 

مزیت اصلی ترانسفورماتور این است که می‌تواند تمام کلمات یک جمله را همزمان پردازش کند و روی مهم‌ترین بخش‌ها تمرکز کند، که باعث افزایش دقت و سرعت آن می‌شود. 

 

 2. درک زمینه - مانند یک شریک مکالمه هوشمند

 

یک چت بات ساده ممکن است فقط بر اساس آخرین جمله ای که تایپ کرده اید پاسخ دهد. اما ChatGPT متفاوت است: قبل از پاسخ دادن، کل تاریخچه مکالمه را در نظر می گیرد.

 

قیاس:تصور کنید در حال صحبت با دوستی هستید که همه چیزهایی را که تاکنون گفته اید به خاطر می آورد. آنها به جای اینکه به هر جمله به صورت مجزا پاسخ دهند، آنچه را که قبلاً گفته شده پیگیری می کنند تا بتوانند پاسخ های مرتبط را بدهند.

 

این توانایی از چیزی به نام "مدل ترانسفورماتور"، به طور خاص معماری به نام GPT (ترانسفورماتور از قبل آموزش دیده) ناشی می شود. نوآوری کلیدی ترانسفورماتورها چیزی به نام "مکانیسم های توجه" است که به مدل اجازه می دهد تا بر مهمترین بخش های متن ورودی تمرکز کند.

 

  • مدل سطوح اهمیت متفاوتی را به هر کلمه در سوال شما اختصاص می دهد.
  •  از "مکانیسم های توجه به خود" استفاده می کند تا مشخص کند کدام بخش از متن مرتبط تر است.
  • این به آن اجازه می دهد تا به جای کلمات تصادفی، پاسخ های منسجم و مرتبط ایجاد کند.

 

 3. ایجاد پاسخ - مانند یک تکمیل خودکار سوپرشارژ

ChatGPT در هسته خود یک "سیستم متن پیشگوی پیشرفته" است. وقتی از او سوالی می‌پرسید، "چیزها را به شیوه‌ای انسانی «فکر نمی‌کند» یا «می‌داند»" – در عوض، محتمل‌ترین کلمه بعدی را بر اساس هر چیزی که قبلاً دیده است، پیش‌بینی می‌کند.

 

"مقایسه:" وقتی پیامی را تایپ می کنید به ویژگی تکمیل خودکار تلفن خود فکر کنید. اگر با "من دوست دارم" را شروع کنید، ممکن است تلفن شما بر اساس آنچه مردم معمولا می گویند "تو"، "پیتزا" یا "سگ من" را پیشنهاد دهد. ChatGPT همان کار را انجام می دهد، اما در مقیاس گسترده.

 

این مدل کلمات "یک در یک" را تولید می کند و بر اساس احتمالات، محتمل ترین کلمه بعدی را انتخاب می کند.

با استفاده از پارامتری به نام "دما" "خلاقیت و انسجام" را متعادل می کند (مقادیر بالاتر پاسخ ها را تصادفی تر می کند، مقادیر کمتر آنها را قابل پیش بینی تر می کند).

پاسخ های ثابتی ندارد—هر بار به صورت پویا جملات جدیدی تولید می کند.

 

محدودیت های کلیدی

1. "بدون درک واقعی" - ChatGPT مانند یک انسان "فکر نمی کند". "واقعاً معنی را درک نمی‌کند" - فقط پیش‌بینی می‌کند که چه کلماتی باید بر اساس الگوها بیایند.

2. "عدم یادگیری در زمان واقعی" - از مکالمات جدید در زمان واقعی یاد نمی گیرد. اگر بر روی داده های سال 2023 آموزش دیده باشد، از رویدادهای سال 2024 اطلاعی نخواهد داشت.

3. "می توان تعصب داشت" - از آنجایی که از متن انسانی آموخته می شود، گاهی اوقات می تواند سوگیری های موجود در داده هایی را که بر روی آنها آموزش دیده است منعکس کند.

 

خلاصه نهایی

ChatGPT یک پیش بینی متن غول پیکر است که بر روی مقادیر انبوه متن آموزش دیده است.

از یادگیری عمیق (یک مدل ترانسفورماتور) برای درک زمینه و ایجاد پاسخ استفاده می کند.

مثل یک انسان "فکر نمی کند" - فقط کلمه بعدی را بر اساس احتمالات پیش بینی می کند.

سایت سینرژی

۰
از ۵
۰ مشارکت کننده

جستجو در مقالات

دیگر نوشته‌ها

رمز عبورتان را فراموش کرده‌اید؟

ثبت کلمه عبور خود را فراموش کرده‌اید؟ لطفا شماره همراه یا آدرس ایمیل خودتان را وارد کنید. شما به زودی یک ایمیل یا اس ام اس برای ایجاد کلمه عبور جدید، دریافت خواهید کرد.

بازگشت به بخش ورود

کد دریافتی را وارد نمایید.

بازگشت به بخش ورود

تغییر کلمه عبور

تغییر کلمه عبور

حساب کاربری من

سفارشات

مشاهده سفارش

سبد خرید