توی قسمتِ قبل یه ویس ایجنت ساختیم که باهاش حرف میزدیم، ولی یه تأخیرِ چندثانیهای داشت (صدا اول متن میشد، میرفت مدل، و دوباره صدا میشد). اینجا همون اپ رو برمیداریم و Realtimeش میکنیم — با مدلِ gpt-realtime-2 که ورودی و خروجیش مستقیم صداست. نتیجه: یه ایجنتِ صوتی که مثلِ یه آدمِ واقعی، بیتأخیر باهات حرف میزنه. این بار هم بهجای AI Studio، با Claude Code جلو میریم.
اول: فانکشن کالینگ واقعاً چطور کار میکنه؟
قبل از کد، کدِ ایجنتِ قبلی رو باز میکنیم و Native Function Calling رو خطبهخط میبینیم: یه اسکیمای JSON (طبقِ داکیومنتِ خودِ OpenAI) به مدل میگه چه ابزارهایی داره (add_task، complete_task، delete_task)، مدل تصمیم میگیره کِی یکیشو صدا بزنه، و در این روش مدلِ متنی (gpt-5.4-mini) دو بار کال میشه: یه بار برای تصمیم/اجرا، یه بار برای جوابِ نهایی. فرقش با Prompt-based tool call (که توی ویدیوی «Agent چیست» گفتم) هم همینجا روشن میشه.
ساختش با Claude Code
روشی که همیشه میرم: اول مدل رو گرم میکنم (بذار کلِ پروژه رو بخونه)، بعد Plan Mode، بعد اجرا. چون مدل قبل از معرفیِ gpt-realtime-2 آموزش دیده، با Context7 MCP داکیومنتِ بهروزشو میگیرم تا گیج نشه. وسطِ کار هم حواسم به Context Window هست — الکی پُرش نمیکنم، چون هم گرونتر میشه هم مدل گیج میزنه.
Realtime زیرِ پوست
برعکسِ روشِ پایپلاینی، اینجا یه کانکشنِ دائم (WebSocket) با بکاند باز میشه و مدل همزمان که داری حرف میزنی پردازش و فانکشن کال میکنه. یه دکمه گذاشتیم که بینِ حالتِ Realtime و معمولی سوییچ کنی و فرقشونو حس کنی.
واقعیتِ هزینه
Realtime جادوییه ولی گرونه: حدودِ ۲۲ سنت برای کمتر از یک دقیقه حرفزدن. چرا؟ چون توکنِ صوتیِ gpt-realtime-2 گرونه (حدودِ ۳۲ دلار ورودی و ۶۴ دلار خروجی بهازای هر ۱M توکنِ صوتی) و صدا کلی توکن میخوره. در مقابل، مدلِ متنیِ gpt-5.4-mini همون کارو با قیمتی خیلی پایینتر انجام میداد. پس Realtime برای همهچیز بهصرفه نیست — ولی برای کارهای خاص (پشتیبانیِ ۲۴ساعته، منشیِ تلفنی، وقتدهیِ آنلاین) میتونه عالی باشه.
ویدئوی کاملش رو از پایین ببین.


دیدگاهتان را بنویسید