يكشف مقارنة عملية بين خمسة من المنصات الرائدة حول أي واحدة هي الأفضل لاستضافة وكلاء الذكاء الاصطناعي المستقبلية للسيناريوهات اليومية الخاصة بك.
تم إنشاء الصورة بواسطة Decrypt باستخدام الذكاء الاصطناعي
يمكنك القيام بأي شيء مع وكلاء الذكاء الاصطناعي: البحث عن المعلومات في مكتبتك من المستندات، بناء الشيفرة، خدش الويب، الحصول على رؤية وتحليل عميق للبيانات المعقدة، والكثير غير ذلك. يمكنك حتى إنشاء مكتب افتراضي مع مجموعة من الوكلاء المتخصصين في مهام مختلفة وال Permalink وقت عملهم بالتعاون معًا مثل موظفيك الخاصين من الموظفين الرقميين المتخصصين.
إذا كانت الشخص العادي يرغب في بناء مستشار مالي ذكاء اصطناعي الخاص به، على سبيل المثال، أي المنصة تكون الأفضل لخدمتهم؟ بدون واجهة برمجة التطبيقات، وبدون برمجة غريبة، وبدون Github، فقط أردنا أن نرى مدى جودة شركات الذكاء الاصطناعي الأفضل في إنشاء وكلاء الذكاء الاصطناعي بدون أن يكون لدى المستخدم درجة عالية من المهارة التقنية.
بالطبع، تحصل على ما تدفع ثمنه. في هذه الحالة، أردنا أيضا أن نرى ما إذا كان هناك ترابط بين مدى سهولة إعداد وكيل بالنسبة للمبتدئين، وجودة النتائج التي قدمها كل واحد منهما.
جهزت تجربتنا خمسة من الوزن الثقيل لمواجهة بعضها البعض: ChatGPT، Claude، Huggingface، Mistral AI، و Gemini. حصلت كل منصة على نفس التعليمات الأساسية لإنشاء مستشار مالي.
ركز الاختبار حصريًا على القدرات الأساسية. سواء كانت الوكلاء قادرة على التعامل مع سيناريو شائع - في هذه الحالة ، مساعدة شخص في توازن 25,000 دولار من الاستثمارات مقابل 30,000 دولار من الديون. أردنا أيضًا رؤية مدى جودة قدرتهم على تحليل مخطط تداول. تجنبنا استخدام أدوات إضافية قد تزيد من إنتاجية الوكلاء بدلاً من ذلك حاولنا اتباع أبسط نهج.
TL;DR ها هو ما اكتشفناه وكيف قمنا بتصنيف النماذج:
1) GPT لـ OpenAI (8.5/10)
تعتبر ChatGPT المنصة الأكثر توازنًا، حيث توفر خيارات إنشاء وكلاء متطورة بخيارات موجهة ويدوية لتلبية احتياجات المبتدئين الجدد والمستخدمين ذوي الخبرة قليلاً على حد سواء.
على الرغم من أن تحديث واجهة المستخدم الأخير قد دفن بعض الميزات في القوائم، إلا أن المنصة تتفوق في ترجمة متطلبات المستخدم المعقدة إلى وكلاء عملية. قمنا بتجريب النموذج عن طريق بناء مستشار مالي يظهر وعيًا بالسياق الفائق وقدرات مهارة حل المشكلات المنظمة، وتقديم استراتيجيات مفصلة ومنطقية لإدارة الديون وتوزيع الاستثمار.
2) جوجل جيميني (7/10)
جيميني تتميز بواجهتها المصقولة وسهلة الاستخدام ومعالجة الأخطاء الممتازة. على الرغم من أنها تتطلب مزيدًا من التعليمات التفصيلية للحصول على النتائج المثلى، إلا أن تفسيرها الحرفي للتعليمات يخلق نتائج ثابتة ومتوقعة.
نهج الوكيل الاستشاري للنصائح المالية أكد جمع السياق قبل الاقتراحات، محاكاة للممارسات المهنية. ومع ذلك، قد يكون محافظًا بشكل مفرط في ردوده بدون تحفظ.
3) معانقة الدردشة (6.5 / 10)
توفر منصة المصدر المفتوح خيارات لا مثيل لها في التخصيص واختيار نموذج. هذا رائع لأولئك الذين يسعون للسيطرة التفصيلية على كل جانب من جوانب المنصة، ولكنها ليست فعلاً لأولئك الذين يسعون للبساطة. (فكر فيها كمقارنة بين نظام Linux مقابل نظام macOS). إطارها الزمني المتطور وتكامل أدواتها العملية يظهر قدرات متقدمة.
قمنا ببناء وكيل نقي بدون أي وظائف إضافية. استخدمنا Nemomotron من Nvidia كـ LLM الأساسي، وكان كافيًا لمطابقة ChatGPT في جودة الإخراج. ليس سيئًا لمعسكر المصدر المفتوح.
4) كلود (5.5/10)
تتفوق منصة أنثروبيك في فئات محددة ، وخاصة المهام التي تتطلب معالجة السياق وتفسير الشفرة بشكل شامل. واجهتها البسيطة تخفي إمكانيات متطورة ، ولكن حقل التعليمات الاختياري قد يربك المستخدمين.
ظل وكيلنا محافظًا للغاية وغامضًا في نصائحه، ولكنه أظهر وعيًا قويًا بالمخاطر وتفكيرًا استراتيجيًا. يتطلب المزيد من التشجيع الحذر من أجل الضغط على إمكانياته حقًا، ولكن من الظالم تكييف الدعم لاختبار، مبطلًا الافتراض الخاص بتحمل ظروف مماثلة.
5) Mistral AI (5/10)
تقدم منصة الفرنسية خيارات فريدة للتعلم على أساس الأمثلة وتخصيص عميق. ومع ذلك ، فإن واجهتها الموجهة للمطورين ومشاكل التبديل اللغوي المتفرقة تخلق حواجز أمام المستخدمين غير التقنيين. كما يتطلب تعديل تكوين الوكيل لنماذج مختلفة لأداء مهام متباينة مثل تحليل الصور أو التعامل مع الشفرة. هذا ليس مثاليًا.
أظهر المستشار المالي الوعد في تصميم التفاعل، ولكنه واجه صعوبة في التحقق الرياضي الأساسي وقدم أسوأ نتائج. وهذا لا يعني أن النتائج كانت سيئة، ولكن في اختبار بدون نتائج، كانت هذه هي الأقل رضاً.
بالنظر إلى التصنيف السابق، لا يوجد حل موحد وجميع المنصات لها مزاياها وعيوبها الخاصة بها. مع بعض الاهتمام وتخصيص التلميح الدقيق، قد تختلف النتائج من منصة واحدة وتتفوق على الباقي. في نهاية المطاف، يتميز جميع LLMs بأنماط التلميح الخاصة بها.
إذا كنت ترغب في معرفة المزيد عن المنطق وراء تصنيفنا، فإليك نظرة أعمق على تجربتنا والنتائج التي حصلنا عليها مع وكلائنا. قمنا بتكوين جميع وكلائنا بنفس نظام التشغيل، دون إضافة معلمات أو وظائف إضافية، وسألناهم نفس السؤال الأساسي: 'لدي 25 ألف دولار للاستثمار وأنا مدين بمبلغ 30 ألف دولار. قم بإنشاء خطة مالية لي'.
OpenAI
واجهة ChatGPT تم تحديثها مؤخرًا ولكنها جعلت الأمور أكثر تعقيدًا. خيار إنشاء GPT الآن يختبئ خلف القوائم ، ولكن عند العثور عليه ، يوفر مسارين: إعداد محادثة حيث يساعد الذكاء الاصطناعي على بناء وكيلك ، وتكوين يدوي لأولئك الذين يعرفون بالضبط ما يريدونه.
منصة GPT التابعة لشركة OpenAI هي سكينة سويسرية متعددة الاستخدامات - فهي تقرأ الشفرة، وتبحث في الويب، وتتعامل مع إنشاء الصور وتحليلها. يجعل عملية الإعداد الموجهة بواسطة الذكاء الاصطناعي مناسبة بشكل خاص للمبتدئين، على الرغم من أنه قد يبدو مقيدًا بالنسبة للمستخدمين القويين الذين يبحثون عن التحكم الدقيق. (على سبيل المثال، إذا قمت بتشغيل النموذج ليكون أكثر تحديدًا أو أكثر تفصيلاً، فقد يغير النظام بأكمله الاقتراح، مما يمنحك نتائج أسوأ.)
فيما يتعلق بالاستخدام الفعلي للوكيل ، فإن ChatGPT بسيط جدًا والواجهة نظيفة وسهلة الفهم.
يمكن للوكلاء قراءة المستندات وفهم الصور بشكل طبيعي، مما يوفر ميزة على منصات أخرى.
الآن ، دعنا نتحدث عن جودة الوكلاء الذين يمكنك إنشاؤهم باستخدام المطالبة الأساسية. مستشارنا المالي المسمى MoneyGPTكان مثيرًا للإعجاب جدًا، حيث قدم لنا درسًا رائعًا في حل المشكلات المنظمة.
بعيدا عن تخصيصاتها الدقيقة - "20،000 دولار للديون ذات الفائدة العالية" وتفصيلات توزيع المحفظة - أظهر الوكيل استدلالًا ماليًا متطورًا. قدم خارطة طريق مكونة من خمس خطوات ليست مجرد قائمة، ولكن استراتيجية مترابطة تأخذ في الاعتبار الاحتياجات الفورية والاعتبارات طويلة الأجل.
كانت قوة الوكيل في قدرته على تحقيق التوازن بين التفاصيل والسياق. بينما يوصي بالاستثمارات المحددة (40% S&P 500، 30% سندات)، يشرح أيضًا المنطق وراء ردوده: "سداد الديون ذات الفائدة العالية مثل الحصول على عائد مضمون على الاستثمار". هذه الوعي السياقي تمتد إلى التخطيط على المدى الطويل، مقترحًا دورات مراجعة دورية واستراتيجيات تكيفية استنادًا إلى التغيرات في الظروف.
مع ذلك، كشفت هذه الكمية الهائلة من المعلومات عن نقطة ضعف محتملة: خطر غمر المستخدمين بتفاصيل كثيرة في وقت واحد. على الرغم من كونها شاملة من الناحية التقنية، فإن تقديم التخصيصات واستراتيجيات الاستثمار وخطط المراقبة بسرعة قد يكون مربكًا للمبتدئين في المجال المالي.
يمكنك قراءة خطته الكاملة هنا، ويمكنك استخدامه عن طريق النقر على هذا الرابط. نحن نوصي حقا به.
جوجل
بشكل عام ، تفوز منصة إنشاء وكيل Gemini من Google بمسابقة الجمال بواجهة مصقولة وبديهية تجعل إنشاء الوكيل أمرا سهلا للغاية. يأخذ النظام التعليمات حرفيا ، مما يساعد على تجنب الالتباس ، وتزيل واجهة المستخدم النظيفة عامل التخويف من الذكاء الاصطناعي التطوير.
مع ذلك، يتطلب مزيدًا من التنبيه التفصيلي من أجل استخراج بعض العصير الجيد منه. لا يأخذ الأمور على محمل الجد: سيؤدي التنبيه القصير إلى استجابة ذات جودة منخفضة.
تحت الغطاء، يحتوي على عضلات جادة - تكامل بحث الويب المدعوم من Google، تحليل الشفرة، وقدرات معالجة الصور التي تنافس عروض ChatGPT، ولكن في الغالب يعتمد على تكنولوجيا Microsoft.
يبدو واجهة Gemini وكأنها تم تصميمها من قبل أشخاص فهموا تجربة المستخدم بشكل فعلي. توجه واجهة المستخدم المستخدمين بتسميات واضحة ويظهر كل شيء على شاشة واحدة فقط.
تجعل هذه الطريقة المصقولة منهجًا جذابًا بشكل خاص للمبتدئين، على الرغم من أن المستخدمين ذوي الخبرة قد يجدون أنفسهم يرغبون في المزيد من التحكم التفصيلي.
اتصلنا بوكيلناMoneyGemوطلب خطة مالية. أظهرت نهجه التشاوري منهجية حل المشكلات المميزة لـ Google. بدلاً من تقديم إجابة مباشرة ، اقترح أسئلة مثل 'ما نوع الدين هو؟' و 'ما هي أسعار الفائدة الخاصة بك؟' - مما يظهر فهمًا لأن النصيحة المالية ليست مناسبة للجميع.
تأكيدها على جمع السياق قبل تقديم التوصيات يتماشى مع ممارسات التخطيط المالي المهني ، على الرغم من أنه قد يثير استياء المستخدمين الذين يسعون إلى الحصول على إجابات فورية.
لم يكن الجواب الخاص بالصفر مفيدًا. في الأساس، قال الوكيل إنه لا يعرف المستخدم بما فيه الكفاية لتقديم نصيحة مالية جيدة. بعد أن طلبت منه أن يقدم تصورات وأجبرته على تقديم خطة يمكن أن تناسب معظم السيناريوهات، أعد الوكيل مشروعًا محافظًا جدًا للخطة دون تقديم اقتراحات محددة بشأن الاستثمارات التي يجب النظر فيها.
من المال، على الرغم من ذلك، انتهت إجابتها بتوصية بتحقيق الحد الأقصى للحسابات المحظية ضريبيًا مثل 401(k) أو روث IRA لتقليل عبء الضرائب الخاص بك. جميل.
يمكنك النقرهنالقراءة تفاعلنا مع MoneyGem، وتجربة النموذج بنفسك بالنقر علىهذا الرابط.
ميسترال الذكاء الاصطناعي
نهج ميسترال في عملية تكوين الوكيل يبعد كثيرًا عن البساطة. تحتوي أداة إنشاء الوكيل على خيارات تخصيص عميقة مما قد يثير الخوف لدى المبتدئين ويسعد المهوسين، وتكمن هذه الأداة في وحدة تحكم المطورين الخاصة به.
واجهة بناء الوكيل الخاص بها ليست جزءًا من LeChat (واجهة الروبوت الدردشة) ، ولكنها ستظهر هناك بمجرد إنشاء الوكيل.
شيء واحد نحبه حقًا هو القدرة على تغذية الأداة بأمثلة تشكل سلوك الوكيل ونمط الاستجابة - شيء لا تقدمه أي منصة أخرى حاليًا. أيضا، هنا خلل غريب: أثناء إنشاء وكيلنا، تبديل واجهة المستخدم إلى الفرنسية فجأة، ربما لأن الشركة فرنسية. بصرف النظر عن ذلك، لم نتمكن من التبديل مرة أخرى إلى الإنجليزية أو الإسبانية.
بمجرد إنشاء الوكيل، يجب على المستخدمين استدعاؤه في واجهة الدردشة العادية للروبوت الدردشة من أجل العمل معه. يجب عليهم الخروج من لو بلاتفورم والانتقال إلى لو شات، وهو أمر غير الأكثر تباينا. ومع ذلك، فإن واجهة المستخدم لاستخدام الوكيل بسيطة تمامًا وتشعر وكأنها أي روبوت دردشة ذكاء اصطناعي آخر.
قمنا ببناء وكيلنا، وأطلقنا عليه اسمLe Moneyلتكريم جذور ميسترال الفرنسية. أظهر أداؤه بوضوح نهج ميسترال العام في حل المشكلات. طرحه لـ 'تخصيص 10،000 دولار للطوارئ، و 15،000 دولار لسداد الديون، و 10،000 دولار للاستثمارات' يبدو بسيطًا، لكنه يظهر أن الوكلاء يفتقرون إلى بعض التحققات الرياضية الأساسية.
الإجمالي 35،000 دولار تجاوز الأموال المتاحة بمقدار 10،000 دولار، وهو خطأ أساسي يظهره بعض نماذج اللغة عندما يعطون الأولوية للصحة المفهومية على دقة الأرقام.
لا بد أن نلاحظ، ومع ذلك، أن أفضل LLMs الأداء قد تحسنت كثيرًا ولا تفشل في هذه المهمة - على الأقل ليس بشكل متكرر كما في Mistral's.
بخلاف ذلك، لم يكن خطتها مفصلة حقًا، لكنها كانت الوحيدة التي تقدم أسئلة متابعة يمكن أن تجعل التفاعل أكثر سلاسة وتساعد على فهم احتياجات المستخدم بشكل أفضل.
الخطة الكاملة لـ LeMoney متاحةهنا والوكيل متاح للفحص هنا.
أنثروبيك
مشاريع كلود تبدو أقل مثل منصة إنشاء وكيل وأكثر مثل نظام تنفيذ مهام متطور. الواجهة بسيطة، تقريباً جداً، ولا تبدو سهلة التعامل.
قد تترك هذه الواجهة البسيطة بعض المستخدمين يخدشون رؤوسهم. تقدم المنصة إعدادا عاريا مع حقل تعليمات "اختياري" يبدو بطريقة ما غير مهم وحاسم في نفس الوقت: إذا تم تصنيف التعليمات على أنها اختيارية ، فكيف سيعرف وكيل الذكاء الاصطناعي ما يفترض أن يفعله؟
واجهته الحد الأدنى تبدو غريبة، ولكن Anthropic لم يكن معروفًا بذوقه في اختيارات واجهة المستخدم. النافذة نفسها لتكوين النموذج هي التي تستخدمها لتعزيزه. تركز قدراته بشكل أساسي على تفسير رموز النص، ولا شيء آخر. عمليات البحث على الويب ومعالجة الصور والتوليد هي أشياء فاخرة يتركها Anthropic لمنافسيه.
وكيلنا المسمى مونيكلود غير متوفر للاختبار العام لأن Anthropic لا تسمح بذلك. اتخذ موقفًا محافظًا جدًا أثناء تقديم النصح المالي بإجابات دقيقة تقنيًا ولكنها غامضة، مثل 'الحفاظ على نهج متوازن بين تخفيض الديون والادخار الأساسي'، على سبيل المثال.
طلبت معلومات إضافية، ولكن على الأقل تأكدت من توفير استراتيجية عامة جدًا في غيابها دون الحاجة إلى تفاعل أخر، وهو ما يبدو أكثر أماناً من نهج Google.
انقر هنا لقراءتهاخطة كاملة.
Hugging Face
المستودع مفتوح المصدر يقف وحده كملاذ للمستخدمين المتميزين - وكابوس محتمل للمبتدئين. إنها النظام الوحيد الذي يسمح للمستخدمين باختيار نموذج اللغة المفضل لديهم، مما يوفر تحكمًا غير مسبوق في أساس العميل.
أيضًا، يتوفر للمستخدمين عشرات الأدوات المختلفة للتكامل مع وكلائهم، ولكن يمكن تنشيط ثلاثة منها فقط بشكل متزامن. تفرض هذه القيود الاعتبار الدقيق للميزات التي تهم كثيرًا لكل حالة استخدام محددة، ولكنها شيء لا يمكن أن يقدمه أي نموذج آخر.
إنه أكثر تجربة قابلة للتخصيص من جميع الواجهات، ومع ذلك، مع الكثير من الأزرار للتعديل. النتيجة هي منصة يمكن أن تخلق وكلاء متخصصين أكثر قوة من منافسيها، ولكن فقط في يد شخص يعرف بالضبط ماذا يفعلون.
يمكن للمستخدمين تجربة وكلائهم على gate.معانقة الدردشة- بلا شك، حلم المستخدمين الفعالين. بمجرد إنشاء الوكيل، يصبح استخدامه سهلاً للغاية. يظهر الواجهة بطاقة كبيرة تحتوي على اسم الوكيل ووصفه وصورته. كما يتيح للمستخدمين مشاركة رابط الوكيل وتعديل إعداداته، كل ذلك من البطاقة نفسها.
وضعناHuggingMoney’sيظهر اختبار الوكيل أنه يتعامل مع إطار زمني، مما يدل على فهم أكثر تطورًا لعلم نفس التخطيط المالي. تقسيمه إلى "الأجل القصير (0-24 شهرًا)، الأجل المتوسط (24-60 شهرًا)، والأجل الطويل (أكثر من 60 شهرًا)" يعكس ممارسات التخطيط المالي المهنية.
واقترح الوكيل تخصيص "0-5،000 دولار في المركبات السائلة ذات المخاطر المنخفضة" مع الحفاظ على دفعات ديون متهورة بقيمة "1،000-1،500 دولار شهريًا." هذا، بمظرة أولية، علامة على فهم متقن لإدارة السيولة.
كانت ميزة مثيرة للاهتمام أخرى هي دمج الأدوات العملية مع النصائح النظرية. بعيدا عن مجرد اقتراح50/30/20بموجب هذه القاعدة ، فإنها توصي بتطبيقات محددة للميزانية وتؤكد على تحسين الضرائب - مما يخلق جسرًا بين الإستراتيجية على المستوى العالي والتنفيذ اليومي. أكبر سلبية؟ يتضمن افتراضات حول أسعار الفائدة على الديون دون السعي للتوضيح.
في سعيه لتقديم نصائح مفيدة ، يأخذ الكثير من الأشياء مأخوذة على عاتقه. يمكن إصلاح هذا الأمر ، الرغبة في تقديم رد بغض النظر عن الأمر، مما يتطلب الحث على ذلك، ولكن هذا أمر يجب أن يُنظر إليه.
يمكنك قراءة خطة HuggingMoney بالكاملهناأيضًا، يمكنك تجربته عن طريق النقر علىهذا الرابط.
مشاركة
المحتوى
يكشف مقارنة عملية بين خمسة من المنصات الرائدة حول أي واحدة هي الأفضل لاستضافة وكلاء الذكاء الاصطناعي المستقبلية للسيناريوهات اليومية الخاصة بك.
تم إنشاء الصورة بواسطة Decrypt باستخدام الذكاء الاصطناعي
يمكنك القيام بأي شيء مع وكلاء الذكاء الاصطناعي: البحث عن المعلومات في مكتبتك من المستندات، بناء الشيفرة، خدش الويب، الحصول على رؤية وتحليل عميق للبيانات المعقدة، والكثير غير ذلك. يمكنك حتى إنشاء مكتب افتراضي مع مجموعة من الوكلاء المتخصصين في مهام مختلفة وال Permalink وقت عملهم بالتعاون معًا مثل موظفيك الخاصين من الموظفين الرقميين المتخصصين.
إذا كانت الشخص العادي يرغب في بناء مستشار مالي ذكاء اصطناعي الخاص به، على سبيل المثال، أي المنصة تكون الأفضل لخدمتهم؟ بدون واجهة برمجة التطبيقات، وبدون برمجة غريبة، وبدون Github، فقط أردنا أن نرى مدى جودة شركات الذكاء الاصطناعي الأفضل في إنشاء وكلاء الذكاء الاصطناعي بدون أن يكون لدى المستخدم درجة عالية من المهارة التقنية.
بالطبع، تحصل على ما تدفع ثمنه. في هذه الحالة، أردنا أيضا أن نرى ما إذا كان هناك ترابط بين مدى سهولة إعداد وكيل بالنسبة للمبتدئين، وجودة النتائج التي قدمها كل واحد منهما.
جهزت تجربتنا خمسة من الوزن الثقيل لمواجهة بعضها البعض: ChatGPT، Claude، Huggingface، Mistral AI، و Gemini. حصلت كل منصة على نفس التعليمات الأساسية لإنشاء مستشار مالي.
ركز الاختبار حصريًا على القدرات الأساسية. سواء كانت الوكلاء قادرة على التعامل مع سيناريو شائع - في هذه الحالة ، مساعدة شخص في توازن 25,000 دولار من الاستثمارات مقابل 30,000 دولار من الديون. أردنا أيضًا رؤية مدى جودة قدرتهم على تحليل مخطط تداول. تجنبنا استخدام أدوات إضافية قد تزيد من إنتاجية الوكلاء بدلاً من ذلك حاولنا اتباع أبسط نهج.
TL;DR ها هو ما اكتشفناه وكيف قمنا بتصنيف النماذج:
1) GPT لـ OpenAI (8.5/10)
تعتبر ChatGPT المنصة الأكثر توازنًا، حيث توفر خيارات إنشاء وكلاء متطورة بخيارات موجهة ويدوية لتلبية احتياجات المبتدئين الجدد والمستخدمين ذوي الخبرة قليلاً على حد سواء.
على الرغم من أن تحديث واجهة المستخدم الأخير قد دفن بعض الميزات في القوائم، إلا أن المنصة تتفوق في ترجمة متطلبات المستخدم المعقدة إلى وكلاء عملية. قمنا بتجريب النموذج عن طريق بناء مستشار مالي يظهر وعيًا بالسياق الفائق وقدرات مهارة حل المشكلات المنظمة، وتقديم استراتيجيات مفصلة ومنطقية لإدارة الديون وتوزيع الاستثمار.
2) جوجل جيميني (7/10)
جيميني تتميز بواجهتها المصقولة وسهلة الاستخدام ومعالجة الأخطاء الممتازة. على الرغم من أنها تتطلب مزيدًا من التعليمات التفصيلية للحصول على النتائج المثلى، إلا أن تفسيرها الحرفي للتعليمات يخلق نتائج ثابتة ومتوقعة.
نهج الوكيل الاستشاري للنصائح المالية أكد جمع السياق قبل الاقتراحات، محاكاة للممارسات المهنية. ومع ذلك، قد يكون محافظًا بشكل مفرط في ردوده بدون تحفظ.
3) معانقة الدردشة (6.5 / 10)
توفر منصة المصدر المفتوح خيارات لا مثيل لها في التخصيص واختيار نموذج. هذا رائع لأولئك الذين يسعون للسيطرة التفصيلية على كل جانب من جوانب المنصة، ولكنها ليست فعلاً لأولئك الذين يسعون للبساطة. (فكر فيها كمقارنة بين نظام Linux مقابل نظام macOS). إطارها الزمني المتطور وتكامل أدواتها العملية يظهر قدرات متقدمة.
قمنا ببناء وكيل نقي بدون أي وظائف إضافية. استخدمنا Nemomotron من Nvidia كـ LLM الأساسي، وكان كافيًا لمطابقة ChatGPT في جودة الإخراج. ليس سيئًا لمعسكر المصدر المفتوح.
4) كلود (5.5/10)
تتفوق منصة أنثروبيك في فئات محددة ، وخاصة المهام التي تتطلب معالجة السياق وتفسير الشفرة بشكل شامل. واجهتها البسيطة تخفي إمكانيات متطورة ، ولكن حقل التعليمات الاختياري قد يربك المستخدمين.
ظل وكيلنا محافظًا للغاية وغامضًا في نصائحه، ولكنه أظهر وعيًا قويًا بالمخاطر وتفكيرًا استراتيجيًا. يتطلب المزيد من التشجيع الحذر من أجل الضغط على إمكانياته حقًا، ولكن من الظالم تكييف الدعم لاختبار، مبطلًا الافتراض الخاص بتحمل ظروف مماثلة.
5) Mistral AI (5/10)
تقدم منصة الفرنسية خيارات فريدة للتعلم على أساس الأمثلة وتخصيص عميق. ومع ذلك ، فإن واجهتها الموجهة للمطورين ومشاكل التبديل اللغوي المتفرقة تخلق حواجز أمام المستخدمين غير التقنيين. كما يتطلب تعديل تكوين الوكيل لنماذج مختلفة لأداء مهام متباينة مثل تحليل الصور أو التعامل مع الشفرة. هذا ليس مثاليًا.
أظهر المستشار المالي الوعد في تصميم التفاعل، ولكنه واجه صعوبة في التحقق الرياضي الأساسي وقدم أسوأ نتائج. وهذا لا يعني أن النتائج كانت سيئة، ولكن في اختبار بدون نتائج، كانت هذه هي الأقل رضاً.
بالنظر إلى التصنيف السابق، لا يوجد حل موحد وجميع المنصات لها مزاياها وعيوبها الخاصة بها. مع بعض الاهتمام وتخصيص التلميح الدقيق، قد تختلف النتائج من منصة واحدة وتتفوق على الباقي. في نهاية المطاف، يتميز جميع LLMs بأنماط التلميح الخاصة بها.
إذا كنت ترغب في معرفة المزيد عن المنطق وراء تصنيفنا، فإليك نظرة أعمق على تجربتنا والنتائج التي حصلنا عليها مع وكلائنا. قمنا بتكوين جميع وكلائنا بنفس نظام التشغيل، دون إضافة معلمات أو وظائف إضافية، وسألناهم نفس السؤال الأساسي: 'لدي 25 ألف دولار للاستثمار وأنا مدين بمبلغ 30 ألف دولار. قم بإنشاء خطة مالية لي'.
OpenAI
واجهة ChatGPT تم تحديثها مؤخرًا ولكنها جعلت الأمور أكثر تعقيدًا. خيار إنشاء GPT الآن يختبئ خلف القوائم ، ولكن عند العثور عليه ، يوفر مسارين: إعداد محادثة حيث يساعد الذكاء الاصطناعي على بناء وكيلك ، وتكوين يدوي لأولئك الذين يعرفون بالضبط ما يريدونه.
منصة GPT التابعة لشركة OpenAI هي سكينة سويسرية متعددة الاستخدامات - فهي تقرأ الشفرة، وتبحث في الويب، وتتعامل مع إنشاء الصور وتحليلها. يجعل عملية الإعداد الموجهة بواسطة الذكاء الاصطناعي مناسبة بشكل خاص للمبتدئين، على الرغم من أنه قد يبدو مقيدًا بالنسبة للمستخدمين القويين الذين يبحثون عن التحكم الدقيق. (على سبيل المثال، إذا قمت بتشغيل النموذج ليكون أكثر تحديدًا أو أكثر تفصيلاً، فقد يغير النظام بأكمله الاقتراح، مما يمنحك نتائج أسوأ.)
فيما يتعلق بالاستخدام الفعلي للوكيل ، فإن ChatGPT بسيط جدًا والواجهة نظيفة وسهلة الفهم.
يمكن للوكلاء قراءة المستندات وفهم الصور بشكل طبيعي، مما يوفر ميزة على منصات أخرى.
الآن ، دعنا نتحدث عن جودة الوكلاء الذين يمكنك إنشاؤهم باستخدام المطالبة الأساسية. مستشارنا المالي المسمى MoneyGPTكان مثيرًا للإعجاب جدًا، حيث قدم لنا درسًا رائعًا في حل المشكلات المنظمة.
بعيدا عن تخصيصاتها الدقيقة - "20،000 دولار للديون ذات الفائدة العالية" وتفصيلات توزيع المحفظة - أظهر الوكيل استدلالًا ماليًا متطورًا. قدم خارطة طريق مكونة من خمس خطوات ليست مجرد قائمة، ولكن استراتيجية مترابطة تأخذ في الاعتبار الاحتياجات الفورية والاعتبارات طويلة الأجل.
كانت قوة الوكيل في قدرته على تحقيق التوازن بين التفاصيل والسياق. بينما يوصي بالاستثمارات المحددة (40% S&P 500، 30% سندات)، يشرح أيضًا المنطق وراء ردوده: "سداد الديون ذات الفائدة العالية مثل الحصول على عائد مضمون على الاستثمار". هذه الوعي السياقي تمتد إلى التخطيط على المدى الطويل، مقترحًا دورات مراجعة دورية واستراتيجيات تكيفية استنادًا إلى التغيرات في الظروف.
مع ذلك، كشفت هذه الكمية الهائلة من المعلومات عن نقطة ضعف محتملة: خطر غمر المستخدمين بتفاصيل كثيرة في وقت واحد. على الرغم من كونها شاملة من الناحية التقنية، فإن تقديم التخصيصات واستراتيجيات الاستثمار وخطط المراقبة بسرعة قد يكون مربكًا للمبتدئين في المجال المالي.
يمكنك قراءة خطته الكاملة هنا، ويمكنك استخدامه عن طريق النقر على هذا الرابط. نحن نوصي حقا به.
جوجل
بشكل عام ، تفوز منصة إنشاء وكيل Gemini من Google بمسابقة الجمال بواجهة مصقولة وبديهية تجعل إنشاء الوكيل أمرا سهلا للغاية. يأخذ النظام التعليمات حرفيا ، مما يساعد على تجنب الالتباس ، وتزيل واجهة المستخدم النظيفة عامل التخويف من الذكاء الاصطناعي التطوير.
مع ذلك، يتطلب مزيدًا من التنبيه التفصيلي من أجل استخراج بعض العصير الجيد منه. لا يأخذ الأمور على محمل الجد: سيؤدي التنبيه القصير إلى استجابة ذات جودة منخفضة.
تحت الغطاء، يحتوي على عضلات جادة - تكامل بحث الويب المدعوم من Google، تحليل الشفرة، وقدرات معالجة الصور التي تنافس عروض ChatGPT، ولكن في الغالب يعتمد على تكنولوجيا Microsoft.
يبدو واجهة Gemini وكأنها تم تصميمها من قبل أشخاص فهموا تجربة المستخدم بشكل فعلي. توجه واجهة المستخدم المستخدمين بتسميات واضحة ويظهر كل شيء على شاشة واحدة فقط.
تجعل هذه الطريقة المصقولة منهجًا جذابًا بشكل خاص للمبتدئين، على الرغم من أن المستخدمين ذوي الخبرة قد يجدون أنفسهم يرغبون في المزيد من التحكم التفصيلي.
اتصلنا بوكيلناMoneyGemوطلب خطة مالية. أظهرت نهجه التشاوري منهجية حل المشكلات المميزة لـ Google. بدلاً من تقديم إجابة مباشرة ، اقترح أسئلة مثل 'ما نوع الدين هو؟' و 'ما هي أسعار الفائدة الخاصة بك؟' - مما يظهر فهمًا لأن النصيحة المالية ليست مناسبة للجميع.
تأكيدها على جمع السياق قبل تقديم التوصيات يتماشى مع ممارسات التخطيط المالي المهني ، على الرغم من أنه قد يثير استياء المستخدمين الذين يسعون إلى الحصول على إجابات فورية.
لم يكن الجواب الخاص بالصفر مفيدًا. في الأساس، قال الوكيل إنه لا يعرف المستخدم بما فيه الكفاية لتقديم نصيحة مالية جيدة. بعد أن طلبت منه أن يقدم تصورات وأجبرته على تقديم خطة يمكن أن تناسب معظم السيناريوهات، أعد الوكيل مشروعًا محافظًا جدًا للخطة دون تقديم اقتراحات محددة بشأن الاستثمارات التي يجب النظر فيها.
من المال، على الرغم من ذلك، انتهت إجابتها بتوصية بتحقيق الحد الأقصى للحسابات المحظية ضريبيًا مثل 401(k) أو روث IRA لتقليل عبء الضرائب الخاص بك. جميل.
يمكنك النقرهنالقراءة تفاعلنا مع MoneyGem، وتجربة النموذج بنفسك بالنقر علىهذا الرابط.
ميسترال الذكاء الاصطناعي
نهج ميسترال في عملية تكوين الوكيل يبعد كثيرًا عن البساطة. تحتوي أداة إنشاء الوكيل على خيارات تخصيص عميقة مما قد يثير الخوف لدى المبتدئين ويسعد المهوسين، وتكمن هذه الأداة في وحدة تحكم المطورين الخاصة به.
واجهة بناء الوكيل الخاص بها ليست جزءًا من LeChat (واجهة الروبوت الدردشة) ، ولكنها ستظهر هناك بمجرد إنشاء الوكيل.
شيء واحد نحبه حقًا هو القدرة على تغذية الأداة بأمثلة تشكل سلوك الوكيل ونمط الاستجابة - شيء لا تقدمه أي منصة أخرى حاليًا. أيضا، هنا خلل غريب: أثناء إنشاء وكيلنا، تبديل واجهة المستخدم إلى الفرنسية فجأة، ربما لأن الشركة فرنسية. بصرف النظر عن ذلك، لم نتمكن من التبديل مرة أخرى إلى الإنجليزية أو الإسبانية.
بمجرد إنشاء الوكيل، يجب على المستخدمين استدعاؤه في واجهة الدردشة العادية للروبوت الدردشة من أجل العمل معه. يجب عليهم الخروج من لو بلاتفورم والانتقال إلى لو شات، وهو أمر غير الأكثر تباينا. ومع ذلك، فإن واجهة المستخدم لاستخدام الوكيل بسيطة تمامًا وتشعر وكأنها أي روبوت دردشة ذكاء اصطناعي آخر.
قمنا ببناء وكيلنا، وأطلقنا عليه اسمLe Moneyلتكريم جذور ميسترال الفرنسية. أظهر أداؤه بوضوح نهج ميسترال العام في حل المشكلات. طرحه لـ 'تخصيص 10،000 دولار للطوارئ، و 15،000 دولار لسداد الديون، و 10،000 دولار للاستثمارات' يبدو بسيطًا، لكنه يظهر أن الوكلاء يفتقرون إلى بعض التحققات الرياضية الأساسية.
الإجمالي 35،000 دولار تجاوز الأموال المتاحة بمقدار 10،000 دولار، وهو خطأ أساسي يظهره بعض نماذج اللغة عندما يعطون الأولوية للصحة المفهومية على دقة الأرقام.
لا بد أن نلاحظ، ومع ذلك، أن أفضل LLMs الأداء قد تحسنت كثيرًا ولا تفشل في هذه المهمة - على الأقل ليس بشكل متكرر كما في Mistral's.
بخلاف ذلك، لم يكن خطتها مفصلة حقًا، لكنها كانت الوحيدة التي تقدم أسئلة متابعة يمكن أن تجعل التفاعل أكثر سلاسة وتساعد على فهم احتياجات المستخدم بشكل أفضل.
الخطة الكاملة لـ LeMoney متاحةهنا والوكيل متاح للفحص هنا.
أنثروبيك
مشاريع كلود تبدو أقل مثل منصة إنشاء وكيل وأكثر مثل نظام تنفيذ مهام متطور. الواجهة بسيطة، تقريباً جداً، ولا تبدو سهلة التعامل.
قد تترك هذه الواجهة البسيطة بعض المستخدمين يخدشون رؤوسهم. تقدم المنصة إعدادا عاريا مع حقل تعليمات "اختياري" يبدو بطريقة ما غير مهم وحاسم في نفس الوقت: إذا تم تصنيف التعليمات على أنها اختيارية ، فكيف سيعرف وكيل الذكاء الاصطناعي ما يفترض أن يفعله؟
واجهته الحد الأدنى تبدو غريبة، ولكن Anthropic لم يكن معروفًا بذوقه في اختيارات واجهة المستخدم. النافذة نفسها لتكوين النموذج هي التي تستخدمها لتعزيزه. تركز قدراته بشكل أساسي على تفسير رموز النص، ولا شيء آخر. عمليات البحث على الويب ومعالجة الصور والتوليد هي أشياء فاخرة يتركها Anthropic لمنافسيه.
وكيلنا المسمى مونيكلود غير متوفر للاختبار العام لأن Anthropic لا تسمح بذلك. اتخذ موقفًا محافظًا جدًا أثناء تقديم النصح المالي بإجابات دقيقة تقنيًا ولكنها غامضة، مثل 'الحفاظ على نهج متوازن بين تخفيض الديون والادخار الأساسي'، على سبيل المثال.
طلبت معلومات إضافية، ولكن على الأقل تأكدت من توفير استراتيجية عامة جدًا في غيابها دون الحاجة إلى تفاعل أخر، وهو ما يبدو أكثر أماناً من نهج Google.
انقر هنا لقراءتهاخطة كاملة.
Hugging Face
المستودع مفتوح المصدر يقف وحده كملاذ للمستخدمين المتميزين - وكابوس محتمل للمبتدئين. إنها النظام الوحيد الذي يسمح للمستخدمين باختيار نموذج اللغة المفضل لديهم، مما يوفر تحكمًا غير مسبوق في أساس العميل.
أيضًا، يتوفر للمستخدمين عشرات الأدوات المختلفة للتكامل مع وكلائهم، ولكن يمكن تنشيط ثلاثة منها فقط بشكل متزامن. تفرض هذه القيود الاعتبار الدقيق للميزات التي تهم كثيرًا لكل حالة استخدام محددة، ولكنها شيء لا يمكن أن يقدمه أي نموذج آخر.
إنه أكثر تجربة قابلة للتخصيص من جميع الواجهات، ومع ذلك، مع الكثير من الأزرار للتعديل. النتيجة هي منصة يمكن أن تخلق وكلاء متخصصين أكثر قوة من منافسيها، ولكن فقط في يد شخص يعرف بالضبط ماذا يفعلون.
يمكن للمستخدمين تجربة وكلائهم على gate.معانقة الدردشة- بلا شك، حلم المستخدمين الفعالين. بمجرد إنشاء الوكيل، يصبح استخدامه سهلاً للغاية. يظهر الواجهة بطاقة كبيرة تحتوي على اسم الوكيل ووصفه وصورته. كما يتيح للمستخدمين مشاركة رابط الوكيل وتعديل إعداداته، كل ذلك من البطاقة نفسها.
وضعناHuggingMoney’sيظهر اختبار الوكيل أنه يتعامل مع إطار زمني، مما يدل على فهم أكثر تطورًا لعلم نفس التخطيط المالي. تقسيمه إلى "الأجل القصير (0-24 شهرًا)، الأجل المتوسط (24-60 شهرًا)، والأجل الطويل (أكثر من 60 شهرًا)" يعكس ممارسات التخطيط المالي المهنية.
واقترح الوكيل تخصيص "0-5،000 دولار في المركبات السائلة ذات المخاطر المنخفضة" مع الحفاظ على دفعات ديون متهورة بقيمة "1،000-1،500 دولار شهريًا." هذا، بمظرة أولية، علامة على فهم متقن لإدارة السيولة.
كانت ميزة مثيرة للاهتمام أخرى هي دمج الأدوات العملية مع النصائح النظرية. بعيدا عن مجرد اقتراح50/30/20بموجب هذه القاعدة ، فإنها توصي بتطبيقات محددة للميزانية وتؤكد على تحسين الضرائب - مما يخلق جسرًا بين الإستراتيجية على المستوى العالي والتنفيذ اليومي. أكبر سلبية؟ يتضمن افتراضات حول أسعار الفائدة على الديون دون السعي للتوضيح.
في سعيه لتقديم نصائح مفيدة ، يأخذ الكثير من الأشياء مأخوذة على عاتقه. يمكن إصلاح هذا الأمر ، الرغبة في تقديم رد بغض النظر عن الأمر، مما يتطلب الحث على ذلك، ولكن هذا أمر يجب أن يُنظر إليه.
يمكنك قراءة خطة HuggingMoney بالكاملهناأيضًا، يمكنك تجربته عن طريق النقر علىهذا الرابط.