تست عملی Claude Opus 4.8؛ یه پروژه‌ی کامل رو فقط با یک پرامپت ساخت

چند ساعت از اومدن Claude Opus 4.8 می‌گذره و طاقت نیاوردم — نشستم یه تست عملی واقعی ازش گرفتم. به‌جای اینکه فقط بنچمارک‌ها رو نگاه کنیم، یه پروژه‌ی واقعی دادم دستش ببینم توی عمل چه‌جوریه. نتیجه برام جالب بود و توی این مقاله دقیقاً همون تجربه رو با هم مرور می‌کنیم.

Opus 4.8 چی با خودش آورده؟

از نظر بنچمارک، Opus 4.8 قطعاً از 4.7 قوی‌تره. توی بخش agentic و کار با ترمینال، عددهاش داره به GPT-5.5 نزدیک می‌شه. البته صادق باشم: ممکنه توی استفاده‌ی روزمره خیلی این تفاوت رو حس نکنی، چون 4.7 هم مدل خیلی خوبی بود.

ولی چند تا تغییر هست که به‌نظرم مهم‌ترن از خود عدد بنچمارک:

اجرای خودکار چند ایجنت. قبلاً برای اینکه ایجنت‌های مختلف اجرا بشن، باید خودت دستی می‌گفتی «ایجنت رو ران کن». حالا Opus 4.8 می‌تونه خودش این کار رو مدیریت و اجرا کنه.
حداکثر کردن سطح فکر (effort / thinking). این قابلیت که روی 4.7 بود، روی 4.8 هم هست؛ توی Claude Code می‌تونی effort رو بذاری روی max تا مدل بیشتر روی مسئله فکر کنه.
توی Claude Code هم همین الان Opus 4.8 در دسترسه و می‌تونی انتخابش کنی.

یه نکته‌ی کوچیک: یه چیزی به اسم fast mode هم معرفی شده، ولی با پلن ۱۰۰ دلاری فعلاً نمی‌شه ازش استفاده کرد.

تست: یه تکلیف اینترویو واقعی، بدون هیچ توضیحی

برای تست، یه چیز واقعی انتخاب کردم. یه تکلیف خونگی (home assignment) برای اینترویو یه شرکت داشتم که خودِ شرکت توی صورت مسئله گفته بود «با هوش مصنوعی انجامش بده».

همین‌جا یه حاشیه‌ی مهم بگم: این روشِ درستِ تست‌گیریه. چند وقت پیش برای یه شرکت دیگه اینترویو دادم که یه تست تقریباً غیرقابل‌حل توی یک ساعت داده بودن و گفته بودن «از هوش مصنوعی هم استفاده نکن». توی دورانی که ابزار هوش مصنوعی این‌قدر مهمه، این کار واقعاً بی‌معنیه. ولی این شرکت برعکس گفته بود با جدیدترین و سریع‌ترین تکنولوژی که می‌تونی انجامش بده، فقط انتظار داریم کدت تمیز باشه. این رویکرد خیلی منطقی‌تره.

تصمیم گرفتم برای این تست، تکلیف رو بدون هیچ توضیحی بدم دست Opus 4.8 و ببینم خودش به‌تنهایی چی‌کار می‌کنه. ریپو رو گیت‌کلون کردم، و فقط یه پرامپت کوتاه دادم در این مایه که «این رو بخون و تمام نیازمندی‌ها رو پیاده‌سازی کن». هیچ راهنمایی، هیچ معماری از پیش‌تعیین‌شده.

خود اپلیکیشن یه چیزی شبیه اپ‌های خرید رمزارز (مثل خرید بیت‌کوین) بود: یه موجودی نشون می‌ده، باید به یه API وصل بشه و نرخ روز رو بگیره (مثلاً قیمت به یورو)، کاربر یه مبلغ وارد می‌کنه، و قسمت سختش این بود که چند تا مقدار باید بر اساس نرخ روز و با اسلایدری که می‌کشی بالا و پایین تنظیم بشن و بشه روشون limit گذاشت؛ آخرش هم با زدن دکمه‌ی تأیید، باید به صفحه‌ی نهایی برسه.

Figma MCP برای خوندن دیزاین

تکلیف یه لینک Figma هم داشت. برای اینکه مدل بتونه دیزاین رو ببینه، Figma MCP رو نصب کردم:

claude mcp add figma

یه نکته‌ی کاربردی: وقتی یه MCP رو توی Claude Desktop وصل می‌کنی، همون MCP توی Claude Code هم در دسترس می‌شه. این‌جا چون پروژه و فایل فیگما مال خودم نبود، دسترسی کامل به فایل جواب نداد و مجبور شدم به‌جاش از کد و اسکرین‌شات دیزاین کپی بگیرم. ولی خودِ روش — وصل کردن Figma به مدل از طریق MCP — کار می‌کنه و وقتی فایل مال خودت باشه خیلی به کارت میاد.

چی شد؟ یه ساعت کار کاملاً مستقل

اینجا بود که واقعاً غافلگیر شدم. فقط یک پرامپت دادم و مدل کل کار رو خودش انجام داد. هیچ سؤالی نپرسید، وسط کار pause نکرد، استاپ نکرد — حدود یک ساعت برای خودش کار کرد و کد زد و آخرش گفت «آماده‌ست».

این مستقل کار کردن طولانی، چیزیه که توی خیلی از ابزارهای دیگه نمی‌بینی. اون ایجنت‌هایی که مثلاً ماهی ۲۰ دلارن و از خود سازنده‌ی مدل نیستن، معمولاً سعی می‌کنن سریع کارو ببندن و نمی‌تونن این‌قدر طولانی و پشت‌سرهم API call بزنن. از نظر هزینه هم، این یک ساعت کار حدود ۲۸٪ از سشن ۴ ساعته‌ی منو پر کرد.

یه نکته: این بار اصلاً پلن نکرد و مستقیم رفت سراغ کد. (اگه یادت باشه، توی کارهای جدی‌تر معمولاً بهتره اول Plan Mode رو روشن کنی، ولی این‌جا گذاشتم خودش هر جور می‌خواد پیش بره تا ببینم خروجی خامش چیه.)

بررسی نتیجه توی Android Studio

پروژه رو توی Android Studio باز کردم و رفتم سراغ جزئیات:

کامیت‌های گیت تمیز و مرحله‌به‌مرحله بودن: initial commit، بعد scaffold، بعد add domain layer، add data layer، add chart component و… یعنی کار رو منطقی و لایه‌لایه جلو برده بود، نه یه کامیت بزرگ به‌هم‌ریخته.
تست نوشته بود: یه سری unit test نوشته بود (هرچند تست UI مثل Espresso ننوشته بود).
خودش امولیتور رو اجرا کرده بود، حتی اسکرین‌شات گرفته بود و توی مستنداتش گذاشته بود.

وقتی اپ رو با دیزاین Figma مقایسه کردم، دقیقاً پیکسل‌به‌پیکسل یکی نبود. UI یه‌کم خام بود — دکمه‌ش خیلی تمیز نبود، چیدمان کاملاً وسط‌چین نبود و مطمئن نیستم داده‌های چارت کاملاً درست باشن. ولی مسیر اصلی کار می‌کرد: مبلغ رو وارد می‌کردی، تأیید می‌زدی و به صفحه‌ی نهایی می‌رسیدی.

جمع‌بندی

روی‌هم‌رفته، مدل تقریباً ۹۰٪ کار رو درست انجام داده بود — اون هم فقط از روی یه description، بدون هیچ دیتای اضافه‌ای که من بهش بدم. معجزه نیست؛ دقیقاً همون چیزی که توی ذهنم بود رو نزد و جای کار کردن روی UI و دیزاین مونده. ولی اینکه توی یک ساعت یه پروژه‌ی نسبتاً تروتمیز و قابل‌اجرا تحویل بده، واقعاً امیدوارکننده بود.

برداشت من اینه: Opus 4.8 یه مدل خیلی خوب برای کدنویسیه و اون استقلال و توان کار طولانیش نقطه‌ی قوت اصلیشه. توی قدم بعدی می‌خوام همین تکلیف رو خودم دستی و قدم‌به‌قدم انجام بدم — با Test Driven Development، با ابزار Graphite برای ساختن stacked PR، و با حساسیت بیشتر روی دیزاین — و بعد نتیجه‌ی دستی رو با این نسخه‌ی کاملاً خودکار مقایسه کنیم. اون مقایسه قراره جالب باشه.

iAct

Act on Ai