
این مطلب مخصوص متخصصان نرم افزار و حرفه ای هاست.
ChatGPT نوعی هوش مصنوعی است که به عنوان مدل زبان بزرگ (LLM) شناخته می شود.
متنی شبیه انسان را بر اساس ورودی دریافت می کند. برای توضیح نحوه کارکرد آن، اجازه دهید آن را با استفاده از قیاس های بصری به سه جزء اصلی تقسیم کنیم:
1. آموزش داده های متنی (یادگیری از کتاب و مکالمات)
2. درک زمینه (معنا ساختن یک مکالمه)
3. ایجاد پاسخ (پیش بینی کلمه بعدی مانند تکمیل خودکار در استروئیدها)
1. آموزش داده های متنی - مانند یادگیری از یک کتابخانه غول پیکر
تصور کنید با دادن دسترسی به بزرگترین کتابخانه جهان به کودک یاد دهید چگونه بنویسد. این کودک (میلیون ها کتاب، مقاله و مکالمه) می خواند، اما به جای اینکه کلمه به کلمه آنها را حفظ کند، (الگوهایی را در نحوه استفاده از کلمات در کنار هم یاد می گیرد).
ChatGPT با استفاده از متن عظیمی از اینترنت کتاب، ویکی پدیا، مقالات خبری، مقالات علمی و موارد دیگر آموزش داده شد. واقعیت های خاصی را مانند پایگاه داده ذخیره نمی کند، بلکه **روابط آماری بین کلمات را یاد می گیرد.
قیاس: مثل کسی که هزاران رمان پلیسی خوانده است به آن فکر کنید. وقتی چند جمله اول یک داستان مرموز جدید را می شنوند، می توانند حدس بزنند که بعداً چه اتفاقی می افتد - نه به این دلیل که داستان ها را حفظ کرده اند، بلکه به این دلیل که الگوهچای کافی برای پیش بینی نتایج احتمالی را دیده اند.
روند فنی:
- مدل با دادن جمله ای با کلمات گمشده و تلاش برای پیش بینی آنها یاد می گیرد.
- با استفاده از تکنیکی به نام آموزش عمیق مبتنی بر ترانسفورموتور که به درک روابط بلندمدت بین کلمات کمک می کند، خود را اصلاح می کند.
- تنظیمات داخلی خود را تنظیم می کند (میلیاردها مقدار عددی به نام "پارامترها") تا دقت خود را در طول زمان بهبود بخشد.
آموزش عمیق مبتنی بر ترانسفورموتور یعنی چه؟
برای درک این موضوع، بیایید آن را به اجزای اصلیاش تقسیم کنیم و با استفاده از تشبیههای ساده و شهودی توضیح دهیم:
1. آموزش عمیق چیست؟ (مثل یادگیری مهارتهای پیچیده)
2. ترانسفورماتور چیست؟(مثل یک مغز فوقالعاده که روی نکات مهم تمرکز میکند)
3. چگونه ترانسفورماتورها در آموزش عمیق استفاده میشوند؟(مثل بهینهسازی نحوه پردازش اطلاعات در یک مغز مصنوعی)
1. آموزش عمیق چیست؟ (مثل یادگیری مهارتهای پیچیده)
آموزش عمیق (Deep Learning) شاخهای از "یادگیری ماشین" است که در آن از "شبکههای عصبی مصنوعی" با "لایههای زیاد استفاده میشود. این شبکهها میتوانند الگوهای پیچیده را در دادهها یاد بگیرند.
فرض کنید میخواهید یک کودک را آموزش دهید که بتواند انواع میوهها را بشناسد. در ابتدا، او فقطیتواند بگوید «این یک میوه است». اما با تمرین بیشتر و دیدن نمونههای بیشتر، میتواند بفهمد که چه چیزی یک سیب را از یک پرتقال متمایز میکند. در نهایت، وقتی تجربهاش خیلی زیاد شود، حتی میتواند انواع مختلف سیب را از هم تشخیص دهد.
- شبکه عصبی شامل لایههای متوالی از "نورونهای مصنوعی" است که دادهها را پردازش میکنند.
- هر لایه "ویژگیهای پیچیدهتری" را یاد میگیرد: لایههای اولیه فقط خطوط و رنگها را تشخیص میدهند، اما لایههای بالاتر میتوانند مفاهیم انتزاعیتر را یاد بگیرند.
- مدل با استفاده از "پسانتشار خطا (Backpropagation)" تنظیم میشود تا دقت آن به مرور افزایش یابد.
پسانتشار خطا (Backpropagation) چیست و چگونه کار میکند؟
پسانتشار خطا (Backpropagation) یک روش کلیدی در آموزش شبکههای عصبی مصنوعی است که به مدل کمک میکند تا **خطاهای خود را اصلاح کند و یاد بگیرد.
فرض کنید میخواهید پرتاب دارت را یاد بگیرید. اگر اولین پرتاب شما به هدف نخورد، شما مسیر پرتاب را بررسی کرده و آن را اصلاح میکنید. این فرآیند "اصلاح بر اساس خطا" را میتوان مشابه پسانتشار خطا دانست.
✅ در پسانتشار خطا، مدل یادگیری خود را از طریق سه مرحله بهبود میدهد:
1. پیشبینی اولیه (Forward Pass) → مدل یک خروجی تولید میکند.
2. محاسبه خطا → میزان اشتباه مدل با مقدار واقعی مقایسه میشود.
3. اصلاح وزنها (Backward Pass) → وزنهای شبکه عصبی اصلاح میشوند تا خطا کمتر شود.
2. ترانسفورماتور چیست؟(مثل یک مغز فوقالعاده که روی نکات مهم تمرکز میکند)
ترانسفورماتور (Transforme) معماریای است که در سال ۲۰۱۷ توسط محققان گوگل معرفی شد و انقلابی در پردازش زبان طبیعی (NLP) ایجاد کرد.
مشکل مدلهای قدیمی:
قبل از ترانسفورماتورها، مدلهای زبانی از معماریهای RNN (شبکههای عصبی بازگشتی) و LSTM استفاده میکردند. مشکل این روشها این بود که:
- برای پردازش جملات طولانی به خوبی کار نمیکردند.
- کلمات اولیه جمله را هنگام رسیدن به انتهای جمله فراموش میکردند.
- یادگیری آنها کند بود و نیاز به پردازش دنبالهای (یک کلمه در یک زمان) داشتند.
راهحل ترانسفورماتور:
ترانسفورماتورها برخلاف RNN، "تمام کلمات را همزمان پردازش میکنند" و از یک مفهوم به نام "مکانیزم توجه (Attention Mechanism)" استفاده میکنند که به آنها کمک میکند بفهمند کدام قسمتهای جمله مهمتر هستند.
فرض کنید در حال خواندن یک کتاب هستید و معلم از شما میخواهد به نکات کلیدی توجه کنید. به جای اینکه کل کتاب را خط به خط بخوانید، نگاهتان را مستقیماً به قسمتهای مهمتر میاندازید. ترانسفورماتور هم چنین کاری را انجام میدهد: "فقط به بخشهای مهم توجه میکند و بقیه را در اولویت کمتری قرار میدهد."
3. چگونه ترانسفورماتورها در آموزش عمیق استفاده میشوند؟ (مثل بهینهسازی مغز مصنوعی)
در مدلهای مبتنی بر ترانسفورماتور (مثل GPT"" و BERT)، فرآیند یادگیری به این شکل است:

مرحله ۱: پردازش همزمان تمام کلمات
برخلاف مدلهای قدیمی که یک کلمه را در یک زمان پردازش میکردند، ترانسفورماتورها "همه کلمات یک جمله را همزمان پردازش میکنند"
مرحله ۲: محاسبه اهمیت هر کلمه (مکانیزم توجه - Attention Mechanism)
- مدل یاد میگیرد که بعضی از کلمات در جمله مهمتر از بقیه هستند.
- برای این کار، از ماتریسهای توجه (Attention Matrices) استفاده میکند تا میزان اهمیت هر کلمه نسبت به بقیه را مشخص کند.
مرحله ۳: یادگیری عمیق و تنظیم وزنها
- مدل ابتدا با دادههای متنی زیادی آموزش داده میشود.
- از "پسانتشار خطا"و "بهینهسازی پارامترها" برای بهبود دقت مدل استفاده میشود.
✅ آموزش عمیق یعنی یادگیری الگوهای پیچیده از دادهها با استفاده از شبکههای عصبی چندلایه.
✅ ترانسفورماتورها مدلهایی هستند که از مکانیزم توجه (Attention) برای فهم بهتر متن استفاده میکنند.
✅ مزیت اصلی ترانسفورماتور این است که میتواند تمام کلمات یک جمله را همزمان پردازش کند و روی مهمترین بخشها تمرکز کند، که باعث افزایش دقت و سرعت آن میشود.
2. درک زمینه - مانند یک شریک مکالمه هوشمند
یک چت بات ساده ممکن است فقط بر اساس آخرین جمله ای که تایپ کرده اید پاسخ دهد. اما ChatGPT متفاوت است: قبل از پاسخ دادن، کل تاریخچه مکالمه را در نظر می گیرد.
قیاس:تصور کنید در حال صحبت با دوستی هستید که همه چیزهایی را که تاکنون گفته اید به خاطر می آورد. آنها به جای اینکه به هر جمله به صورت مجزا پاسخ دهند، آنچه را که قبلاً گفته شده پیگیری می کنند تا بتوانند پاسخ های مرتبط را بدهند.
این توانایی از چیزی به نام "مدل ترانسفورماتور"، به طور خاص معماری به نام GPT (ترانسفورماتور از قبل آموزش دیده) ناشی می شود. نوآوری کلیدی ترانسفورماتورها چیزی به نام "مکانیسم های توجه" است که به مدل اجازه می دهد تا بر مهمترین بخش های متن ورودی تمرکز کند.
- مدل سطوح اهمیت متفاوتی را به هر کلمه در سوال شما اختصاص می دهد.
- از "مکانیسم های توجه به خود" استفاده می کند تا مشخص کند کدام بخش از متن مرتبط تر است.
- این به آن اجازه می دهد تا به جای کلمات تصادفی، پاسخ های منسجم و مرتبط ایجاد کند.
3. ایجاد پاسخ - مانند یک تکمیل خودکار سوپرشارژ
ChatGPT در هسته خود یک "سیستم متن پیشگوی پیشرفته" است. وقتی از او سوالی میپرسید، "چیزها را به شیوهای انسانی «فکر نمیکند» یا «میداند»" – در عوض، محتملترین کلمه بعدی را بر اساس هر چیزی که قبلاً دیده است، پیشبینی میکند.
"مقایسه:" وقتی پیامی را تایپ می کنید به ویژگی تکمیل خودکار تلفن خود فکر کنید. اگر با "من دوست دارم" را شروع کنید، ممکن است تلفن شما بر اساس آنچه مردم معمولا می گویند "تو"، "پیتزا" یا "سگ من" را پیشنهاد دهد. ChatGPT همان کار را انجام می دهد، اما در مقیاس گسترده.
این مدل کلمات "یک در یک" را تولید می کند و بر اساس احتمالات، محتمل ترین کلمه بعدی را انتخاب می کند.
با استفاده از پارامتری به نام "دما" "خلاقیت و انسجام" را متعادل می کند (مقادیر بالاتر پاسخ ها را تصادفی تر می کند، مقادیر کمتر آنها را قابل پیش بینی تر می کند).
پاسخ های ثابتی ندارد—هر بار به صورت پویا جملات جدیدی تولید می کند.
محدودیت های کلیدی
1. "بدون درک واقعی" - ChatGPT مانند یک انسان "فکر نمی کند". "واقعاً معنی را درک نمیکند" - فقط پیشبینی میکند که چه کلماتی باید بر اساس الگوها بیایند.
2. "عدم یادگیری در زمان واقعی" - از مکالمات جدید در زمان واقعی یاد نمی گیرد. اگر بر روی داده های سال 2023 آموزش دیده باشد، از رویدادهای سال 2024 اطلاعی نخواهد داشت.
3. "می توان تعصب داشت" - از آنجایی که از متن انسانی آموخته می شود، گاهی اوقات می تواند سوگیری های موجود در داده هایی را که بر روی آنها آموزش دیده است منعکس کند.
خلاصه نهایی
ChatGPT یک پیش بینی متن غول پیکر است که بر روی مقادیر انبوه متن آموزش دیده است.
از یادگیری عمیق (یک مدل ترانسفورماتور) برای درک زمینه و ایجاد پاسخ استفاده می کند.
مثل یک انسان "فکر نمی کند" - فقط کلمه بعدی را بر اساس احتمالات پیش بینی می کند.
سایت سینرژی


