iAct

Act on Ai

هوش مصنوعی چطور ساخته میشه؟ از زبان Andrej Karpathy


هوش مصنوعی چطور ساخته میشه؟ از زبان Andrej Karpathy

هوش مصنوعی که هر روز ازش استفاده می‌کنیم — Claude، ChatGPT، Gemini — یه جعبه‌ی سیاهه. می‌نویسیم، جواب می‌گیریم، تموم. ولی پشت پرده چی اتفاق می‌افته؟ این مدل‌ها واقعاً چطور ساخته میشن؟ توی این پست به‌زبون ساده، با الهام از توضیحات Andrej Karpathy (یکی از مغزهای پشت ChatGPT)، می‌رم سراغ کل فرآیند ساخت یه LLM.

LLM چیه؟ — برگرد به Auto-complete

این رو توی پست‌های قبلی هم گفتم ولی اینجا دوباره می‌گمش، چون بدون این چیزی فهمیده نمیشه:

یه LLM در اصل یه Auto-complete پیشرفته‌ست. همون چیزی که توی Google تایپ می‌کنی و خودش جمله رو کامل می‌کنه — همینه، فقط با میلیاردها برابر داده.

وقتی به ChatGPT می‌گی «داستان یه گربه‌ی بازیگوش بنویس»، اون نگاه می‌کنه به همه‌ی متن‌هایی که دیده و فکر می‌کنه: «بعد از این پرسش، احتمالاً جمله‌ی اول داستان چی باشه؟» یه جواب احتمالی می‌سازه. بعد فکر می‌کنه «بعد از این جمله احتمالاً چی میاد؟» و همین‌جور ادامه می‌ده.

هیچ “فکر” یا “آگاهی” نیست — فقط محاسبه‌ی احتمالات. ولی اونقدر روی متن آموزش دیده که این محاسبه‌ی احتمالاتی، شبیه به فکر کردن به‌نظر میاد.

Neural Network به زبون ساده

پشت همه‌ی این محاسبات، یه Neural Networkـه — یه شبکه‌ی عظیم از “نورون”های ریاضی که با همدیگه ارتباط دارن. هر نورون یه عدد می‌گیره، روش یه کار می‌کنه (ضرب، جمع، تبدیل غیرخطی)، خروجی رو می‌فرسته به نورون‌های بعدی.

Neural Networkهای جدید (مدل‌های GPT، Claude، Gemini) صدها میلیارد نورون دارن. GPT-4 حدود ۱.۷ تریلیون پارامتر داره. هر پارامتر یه عدده که در طول آموزش “یاد می‌گیره”.

اون اعداد چی رو ذخیره می‌کنن؟ رابطه‌ی بین کلمات. مثلاً اینکه «آب» و «نوشیدن» تو متن‌ها زیاد کنار هم میان. «خشمگین» و «داد» همینطور. این روابط آماری، تو وزن‌های نورون‌ها ذخیره میشه.

متافور «رویا» — مهم‌ترین مفهوم Karpathy

اینجا قشنگ‌ترین قسمته. Karpathy یه‌بار گفت:

«LLM داره رویا می‌بینه. یه نسخه‌ی فشرده از کل اینترنت توی ذهنش هست، و وقتی ازش سوال می‌پرسی، داره اون رویا رو بازخوانی می‌کنه.»

این چرا مهمه؟ چون توضیح می‌ده که چرا AI گاهی «hallucinate» می‌کنه — یعنی با اطمینان یه چیز اشتباه می‌گه.

تصور کن یه فایل zip از تمام اینترنت داری. فشرده شده — اطلاعات اصلی توشه، ولی بعضی جزئیات از دست رفته. وقتی Unzipش می‌کنی، چیز اصلی برمی‌گرده، ولی یه‌سری چیزها رو خود سیستم “حدس می‌زنه” چون دقیقاً به یاد نمیاره.

AI هم همینه. وقتی یه چیز رو دقیق به یاد نمیاره، یه چیزی شبیهش می‌سازه. خروجی شبیه واقعیت به نظر میاد، ولی نیست. این به‌خاطر بدی AI نیست — به‌خاطر ماهیت فشرده‌ی دانششـه.

سه مرحله‌ی آموزش LLM

مرحله ۱: Pre-training — خوندن کل اینترنت

شرکت می‌ره و یه دیتاست عظیم می‌سازه — همه‌ی صفحات Wikipedia، کتاب‌های دیجیتالی، GitHub، Reddit، StackOverflow، خبرها، مقالات. چندین ترابایت متن. بعد یه Neural Network بزرگ می‌سازن و روی این داده‌ها آموزشش می‌دن.

این مرحله پرهزینه‌ست — میلیون‌ها دلار GPU. و خروجی نهاییش یه مدل خامه — می‌تونه متن تولید کنه ولی هنوز اون آدم مهربان جواب‌گو نیست. بهش می‌گن “Base Model”.

مرحله ۲: SFT (Supervised Fine-Tuning) — یاد دادن چجور رفتار کنه

حالا که مدل می‌دونه متن چیه، باید یاد بگیره به سوال‌ها به‌شکل مفید جواب بده. این مرحله، متن‌های نمونه (نوشته‌شده توسط انسان‌ها) بهش می‌دن: «اگه کسی سوال X پرسید، این‌جوری جواب بده.»

این مرحله چندتا اپلیکیشن مهم داره:
یاد دادن فرمت چت (User → Assistant → User → Assistant)
یاد دادن لحن (مفید، مودب، با احتیاط)
یاد دادن تخصص: مثلاً Codex، یه مدل عمومی نیست — روی کد و GitHub بیشتر آموزش دیده

مرحله ۳: RLHF — یاد گرفتن از انسان‌ها

RLHF = Reinforcement Learning from Human Feedback. این مرحله، شرکت‌ها صدها انسان استخدام می‌کنن که جواب‌های مدل رو ارزیابی کنن. به مدل می‌گن «این جواب بهتر بود، اون جواب بد بود.»

مدل از این بازخوردها یاد می‌گیره. این مرحله‌ست که AIای که الان داریم رو از مدل پایه متمایز می‌کنه — این مرحله‌ست که AI یاد می‌گیره مفید باشه، احتیاط داشته باشه، نه چیزای مضر تولید کنه.

OpenAI، Anthropic، Google — همه‌شون این مرحله رو دارن، فقط با تفاوت‌های ظریف. این مهم‌ترین تفاوت‌ها بین مدل‌هاست. Claude شاید بهتر فکر کنه چون Anthropic بیشتر روی این کار کرده. GPT شاید برای کارای عمومی بهتر باشه. Gemini شاید برای function calling بهتر باشه.

مدل‌های اپن‌سورس — Llama، Gemma، DeepSeek

اکثر مدل‌های قدرتمند (Claude، GPT، Gemini) کلوزد سورس هستن — وزن‌هاشون عمومی نیست. ولی یه‌سری مدل اپن‌سورس هم داریم که می‌تونی دانلود کنی و خودت اجرا کنی:

  • Llama (Meta) — قدرتمندترین خانواده‌ی اپن‌سورس
  • Gemma (Google) — کوچک‌تر، خوب برای Local
  • DeepSeek — چینی، ولی شفاف، با پیشرفت‌های جالب در reasoning

این مدل‌ها معمولاً Base Model + SFT دارن ولی RLHFشون اونقدر گسترده نیست. برای کاربرد شخصی عالی‌ان (مخصوصاً اگه می‌خوای Local اجرا کنی)، ولی برای کیفیت‌بالا، Claude/GPT جلوتران.

(دیدی توی پست «Gemma 4 روی لپ‌تاپ» نوشتم چطور Gemma رو Local اجرا کنی؟ این مدل‌ها دقیقاً همینان.)

چرا این بدونیم اهمیت داره؟

این فقط دانش نظری نیست. فهمیدن این فرآیند، روش استفاده‌ت از AI رو عوض می‌کنه:

  1. چون LLM Auto-complete‌ست → Context Window رو پر کن از اطلاعات مرتبط. هرچی محیط متنی بهتر، جواب بهتر.
  2. چون “رویا می‌بینه” → همیشه جواب‌های مهم رو verify کن. AI نمی‌تونه به طور قطعی به یاد بیاره — حدس می‌زنه.
  3. چون RLHF داره → مدل‌های Premium (Opus، GPT-5) واقعاً بهتران، نه به‌خاطر “نوآوری جادویی” بلکه به‌خاطر اعتبار میلیون‌ها ساعت بازخورد انسانی.
  4. چون اپن‌سورس‌ها هم وجود دارن → اگه نمی‌تونی پول بدی، انتخاب داری.

جمع‌بندی — کلیدهای فهمیدن AI

  • LLM = Auto-complete پیشرفته (همیشه به این برگرد)
  • Neural Network = یه شبکه‌ی عظیم از روابط آماری بین کلمات
  • «رویا» — AI نسخه‌ی فشرده‌ی دانش رو unzip می‌کنه؛ گاهی جزئیات رو حدس می‌زنه
  • سه مرحله آموزش: Pre-training → SFT → RLHF
  • مدل‌های اپن‌سورس = شکل بدون RLHF کامل ولی قابل استفاده

یه پیشنهاد عملی

اگه می‌خوای عمیق‌تر بشی، حتماً ویدئوهای Andrej Karpathy رو ببین. زبان انگلیسیه ولی فوق‌العاده‌ست:

من چیزی که اینجا گفتم خلاصه‌ی این‌هاست. اگه زبان انگلیسیت خوبه، اصل‌ها رو ببین.

بعدی چیه؟

تو پست‌های بعدی این سری:

  • آموزش عملی RLHF — چطور یه مدل خودمون رو fine-tune کنیم؟
  • مقایسه‌ی عمیق Llama vs Gemma vs DeepSeek
  • چه‌جوری از یه مدل اپن‌سورس برای پروژه‌ی production استفاده کنیم؟

سوال داری؟ تو کامنت بپرس.


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *