iAct

Act on Ai

نسخه‌ی Realtime ویس ایجنت — با gpt-realtime-2 مثلِ آدم حرف می‌زنه

ایلیا عابدینی

ژوئن 13

Claude Code, GPT Realtime, Realtime, Voice Agent, ایجنت صوتی, هوش مصنوعی

توی قسمتِ قبل یه ویس ایجنت ساختیم که باهاش حرف می‌زدیم، ولی یه تأخیرِ چندثانیه‌ای داشت (صدا اول متن می‌شد، می‌رفت مدل، و دوباره صدا می‌شد). این‌جا همون اپ رو برمی‌داریم و Realtimeش می‌کنیم — با مدلِ gpt-realtime-2 که ورودی و خروجیش مستقیم صداست. نتیجه: یه ایجنتِ صوتی که مثلِ یه آدمِ واقعی، بی‌تأخیر باهات حرف می‌زنه. این بار هم به‌جای AI Studio، با Claude Code جلو می‌ریم.

اول: فانکشن کالینگ واقعاً چطور کار می‌کنه؟

قبل از کد، کدِ ایجنتِ قبلی رو باز می‌کنیم و Native Function Calling رو خط‌به‌خط می‌بینیم: یه اسکیمای JSON (طبقِ داکیومنتِ خودِ OpenAI) به مدل می‌گه چه ابزارهایی داره (add_task، complete_task، delete_task)، مدل تصمیم می‌گیره کِی یکیشو صدا بزنه، و در این روش مدلِ متنی (gpt-5.4-mini) دو بار کال می‌شه: یه بار برای تصمیم/اجرا، یه بار برای جوابِ نهایی. فرقش با Prompt-based tool call (که توی ویدیوی «Agent چیست» گفتم) هم همین‌جا روشن می‌شه.

ساختش با Claude Code

روشی که همیشه می‌رم: اول مدل رو گرم می‌کنم (بذار کلِ پروژه رو بخونه)، بعد Plan Mode، بعد اجرا. چون مدل قبل از معرفیِ gpt-realtime-2 آموزش دیده، با Context7 MCP داکیومنتِ به‌روزشو می‌گیرم تا گیج نشه. وسطِ کار هم حواسم به Context Window هست — الکی پُرش نمی‌کنم، چون هم گرون‌تر می‌شه هم مدل گیج می‌زنه.

Realtime زیرِ پوست

برعکسِ روشِ پایپ‌لاینی، این‌جا یه کانکشنِ دائم (WebSocket) با بک‌اند باز می‌شه و مدل هم‌زمان که داری حرف می‌زنی پردازش و فانکشن کال می‌کنه. یه دکمه گذاشتیم که بینِ حالتِ Realtime و معمولی سوییچ کنی و فرقشونو حس کنی.

واقعیتِ هزینه

Realtime جادوییه ولی گرونه: حدودِ ۲۲ سنت برای کمتر از یک دقیقه حرف‌زدن. چرا؟ چون توکنِ صوتیِ gpt-realtime-2 گرونه (حدودِ ۳۲ دلار ورودی و ۶۴ دلار خروجی به‌ازای هر ۱M توکنِ صوتی) و صدا کلی توکن می‌خوره. در مقابل، مدلِ متنیِ gpt-5.4-mini همون کارو با قیمتی خیلی پایین‌تر انجام می‌داد. پس Realtime برای همه‌چیز به‌صرفه نیست — ولی برای کارهای خاص (پشتیبانیِ ۲۴ساعته، منشیِ تلفنی، وقت‌دهیِ آنلاین) می‌تونه عالی باشه.

ویدئوی کاملش رو از پایین ببین.