چند ساعت از اومدن Claude Opus 4.8 میگذره و طاقت نیاوردم — نشستم یه تست عملی واقعی ازش گرفتم. بهجای اینکه فقط بنچمارکها رو نگاه کنیم، یه پروژهی واقعی دادم دستش ببینم توی عمل چهجوریه. نتیجه برام جالب بود و توی این مقاله دقیقاً همون تجربه رو با هم مرور میکنیم.
Opus 4.8 چی با خودش آورده؟
از نظر بنچمارک، Opus 4.8 قطعاً از 4.7 قویتره. توی بخش agentic و کار با ترمینال، عددهاش داره به GPT-5.5 نزدیک میشه. البته صادق باشم: ممکنه توی استفادهی روزمره خیلی این تفاوت رو حس نکنی، چون 4.7 هم مدل خیلی خوبی بود.
ولی چند تا تغییر هست که بهنظرم مهمترن از خود عدد بنچمارک:
- اجرای خودکار چند ایجنت. قبلاً برای اینکه ایجنتهای مختلف اجرا بشن، باید خودت دستی میگفتی «ایجنت رو ران کن». حالا Opus 4.8 میتونه خودش این کار رو مدیریت و اجرا کنه.
- حداکثر کردن سطح فکر (effort / thinking). این قابلیت که روی 4.7 بود، روی 4.8 هم هست؛ توی Claude Code میتونی effort رو بذاری روی max تا مدل بیشتر روی مسئله فکر کنه.
- توی Claude Code هم همین الان Opus 4.8 در دسترسه و میتونی انتخابش کنی.
یه نکتهی کوچیک: یه چیزی به اسم fast mode هم معرفی شده، ولی با پلن ۱۰۰ دلاری فعلاً نمیشه ازش استفاده کرد.
تست: یه تکلیف اینترویو واقعی، بدون هیچ توضیحی
برای تست، یه چیز واقعی انتخاب کردم. یه تکلیف خونگی (home assignment) برای اینترویو یه شرکت داشتم که خودِ شرکت توی صورت مسئله گفته بود «با هوش مصنوعی انجامش بده».
همینجا یه حاشیهی مهم بگم: این روشِ درستِ تستگیریه. چند وقت پیش برای یه شرکت دیگه اینترویو دادم که یه تست تقریباً غیرقابلحل توی یک ساعت داده بودن و گفته بودن «از هوش مصنوعی هم استفاده نکن». توی دورانی که ابزار هوش مصنوعی اینقدر مهمه، این کار واقعاً بیمعنیه. ولی این شرکت برعکس گفته بود با جدیدترین و سریعترین تکنولوژی که میتونی انجامش بده، فقط انتظار داریم کدت تمیز باشه. این رویکرد خیلی منطقیتره.
تصمیم گرفتم برای این تست، تکلیف رو بدون هیچ توضیحی بدم دست Opus 4.8 و ببینم خودش بهتنهایی چیکار میکنه. ریپو رو گیتکلون کردم، و فقط یه پرامپت کوتاه دادم در این مایه که «این رو بخون و تمام نیازمندیها رو پیادهسازی کن». هیچ راهنمایی، هیچ معماری از پیشتعیینشده.
خود اپلیکیشن یه چیزی شبیه اپهای خرید رمزارز (مثل خرید بیتکوین) بود: یه موجودی نشون میده، باید به یه API وصل بشه و نرخ روز رو بگیره (مثلاً قیمت به یورو)، کاربر یه مبلغ وارد میکنه، و قسمت سختش این بود که چند تا مقدار باید بر اساس نرخ روز و با اسلایدری که میکشی بالا و پایین تنظیم بشن و بشه روشون limit گذاشت؛ آخرش هم با زدن دکمهی تأیید، باید به صفحهی نهایی برسه.
Figma MCP برای خوندن دیزاین
تکلیف یه لینک Figma هم داشت. برای اینکه مدل بتونه دیزاین رو ببینه، Figma MCP رو نصب کردم:
claude mcp add figma
یه نکتهی کاربردی: وقتی یه MCP رو توی Claude Desktop وصل میکنی، همون MCP توی Claude Code هم در دسترس میشه. اینجا چون پروژه و فایل فیگما مال خودم نبود، دسترسی کامل به فایل جواب نداد و مجبور شدم بهجاش از کد و اسکرینشات دیزاین کپی بگیرم. ولی خودِ روش — وصل کردن Figma به مدل از طریق MCP — کار میکنه و وقتی فایل مال خودت باشه خیلی به کارت میاد.
چی شد؟ یه ساعت کار کاملاً مستقل
اینجا بود که واقعاً غافلگیر شدم. فقط یک پرامپت دادم و مدل کل کار رو خودش انجام داد. هیچ سؤالی نپرسید، وسط کار pause نکرد، استاپ نکرد — حدود یک ساعت برای خودش کار کرد و کد زد و آخرش گفت «آمادهست».
این مستقل کار کردن طولانی، چیزیه که توی خیلی از ابزارهای دیگه نمیبینی. اون ایجنتهایی که مثلاً ماهی ۲۰ دلارن و از خود سازندهی مدل نیستن، معمولاً سعی میکنن سریع کارو ببندن و نمیتونن اینقدر طولانی و پشتسرهم API call بزنن. از نظر هزینه هم، این یک ساعت کار حدود ۲۸٪ از سشن ۴ ساعتهی منو پر کرد.
یه نکته: این بار اصلاً پلن نکرد و مستقیم رفت سراغ کد. (اگه یادت باشه، توی کارهای جدیتر معمولاً بهتره اول Plan Mode رو روشن کنی، ولی اینجا گذاشتم خودش هر جور میخواد پیش بره تا ببینم خروجی خامش چیه.)
بررسی نتیجه توی Android Studio
پروژه رو توی Android Studio باز کردم و رفتم سراغ جزئیات:
- کامیتهای گیت تمیز و مرحلهبهمرحله بودن: initial commit، بعد scaffold، بعد add domain layer، add data layer، add chart component و… یعنی کار رو منطقی و لایهلایه جلو برده بود، نه یه کامیت بزرگ بههمریخته.
- تست نوشته بود: یه سری unit test نوشته بود (هرچند تست UI مثل Espresso ننوشته بود).
- خودش امولیتور رو اجرا کرده بود، حتی اسکرینشات گرفته بود و توی مستنداتش گذاشته بود.
وقتی اپ رو با دیزاین Figma مقایسه کردم، دقیقاً پیکسلبهپیکسل یکی نبود. UI یهکم خام بود — دکمهش خیلی تمیز نبود، چیدمان کاملاً وسطچین نبود و مطمئن نیستم دادههای چارت کاملاً درست باشن. ولی مسیر اصلی کار میکرد: مبلغ رو وارد میکردی، تأیید میزدی و به صفحهی نهایی میرسیدی.
جمعبندی
رویهمرفته، مدل تقریباً ۹۰٪ کار رو درست انجام داده بود — اون هم فقط از روی یه description، بدون هیچ دیتای اضافهای که من بهش بدم. معجزه نیست؛ دقیقاً همون چیزی که توی ذهنم بود رو نزد و جای کار کردن روی UI و دیزاین مونده. ولی اینکه توی یک ساعت یه پروژهی نسبتاً تروتمیز و قابلاجرا تحویل بده، واقعاً امیدوارکننده بود.
برداشت من اینه: Opus 4.8 یه مدل خیلی خوب برای کدنویسیه و اون استقلال و توان کار طولانیش نقطهی قوت اصلیشه. توی قدم بعدی میخوام همین تکلیف رو خودم دستی و قدمبهقدم انجام بدم — با Test Driven Development، با ابزار Graphite برای ساختن stacked PR، و با حساسیت بیشتر روی دیزاین — و بعد نتیجهی دستی رو با این نسخهی کاملاً خودکار مقایسه کنیم. اون مقایسه قراره جالب باشه.


دیدگاهتان را بنویسید