iAct

Act on Ai

ساخت آواتار سخنگوی هوش مصنوعی برای سایت با HeyGen و Claude Code


ساخت آواتار سخنگوی هوش مصنوعی برای سایت با HeyGen و Claude Code

یه آواتارِ هوش مصنوعی ساختم که مثلِ یه آدم باهات حرف می‌زنه — یه چهره که می‌شینه روی سایت یا اپت، ازش سؤال می‌پرسی و با صدا و حالتِ چهره جوابت رو می‌ده. این مقاله می‌گه چطور ساختمش، با چه ابزاری، و رک می‌گم کِی واقعاً به‌دردت می‌خوره و کِی نه.

ساخت با HeyGen

از HeyGen استفاده کردم — سرویسی که می‌تونی باهاش آواتارِ سخنگو بسازی (حتی از چهره‌ی خودت). مشخصاً قابلیتِ Live Avatar / Interactive Avatar که یه آواتارِ زنده می‌ده که می‌تونی باهاش مکالمه کنی.

پیاده‌سازی رو با Claude Code و روی همون پروژه‌ی قبلی انجام دادم. روشِ همیشگی: اول کلاد رو گرم می‌کنم تا کلِ پروژه رو بخونه، بعد اسکیلِ HeyGen (یه فایلِ markdown که خلاصه‌ی داکیومنته) رو بهش می‌دم تا یاد بگیره، بعد پلن، بعد ساخت. کلاد خودش چند تا sub-agentِ موازی باز کرد و یه پنلِ آواتار اضافه کرد.

مهم‌ترین درس: آواتار فانکشن کالینگ نداره

اینو حتماً قبل از ساختِ آواتار ایجنت بدون: HeyGen Live Avatar فانکشن کالینگ نداره. یعنی آواتار می‌تونه حرف بزنه و به سؤال جواب بده، ولی برعکسِ ایجنتِ Realtime نمی‌تونه بره کاری انجام بده — نمی‌تونه تسک بسازه، از دیتابیس بخونه، یا یه ابزار رو صدا بزنه. پس آواتار برای یه «چهره‌ی خوش‌آمدگوی» جلوِ سایت که گپ بزنه و به سؤال‌ها جواب بده عالیه، ولی برای کارِ عملی و انجامِ تسک، نه. همین یه جمله کلی وقت برات صرفه‌جویی می‌کنه.

نکته‌های فنی

  • صدا رو OpenAI TTS می‌سازه و HeyGen فقط لب‌سینک می‌کنه (آواتار لب‌هاشو با صدا هماهنگ می‌کنه).
  • مثلِ پروژه‌های قبلی، هر کاربر کلیدِ OpenAI و HeyGenِ خودشو می‌ذاره تا از اعتبارِ کسی خرج نشه؛ کدِ آواتار رو هم جدا نگه داشتیم.
  • برای سرعت، GPT Realtime transcription رو هم اضافه کردیم (همون‌جور که حرف می‌زنی متن می‌شه).
  • مدل‌های متن‌بازِ لب‌سینک هم هستن (روی Hugging Face)، ولی باید خودت میزبانی‌شون کنی — مثلاً GPUِ اجاره‌ای روی RunPod (مثلِ H100) یا پادِ سرورلِس که ثانیه‌ای حساب می‌کنه. «رایگان» همیشه واقعاً رایگان نیست؛ یه جایی باید هزینه‌ی اجرا داده بشه.

نظرِ صادقانه‌ام

راستش خودم خیلی طرفدارِ آواتار نیستم — بیشترش لب‌سینکه و به جذابیتِ ایجنتِ Realtime نمی‌رسه. برای یه چهره‌ی خوش‌آمدگوی سایت قشنگه، ولی به کاربردی‌بودنِ یه ایجنتی که واقعاً کار انجام می‌ده نمی‌رسه. خواستم ببینی چیه تا خودت تصمیم بگیری کجا به‌دردت می‌خوره.

ویدئوی کاملش رو از پایین ببین.


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *