מאמר חדש של צוות DAIR.AI מעלה ספקות לגבי האופן שבו מעריכים מודלי AI כיום. המאמר, שכותרתו "The Evaluation Trap", טוען כי רבים מהבנצ'מרקים הנוכחיים מודדים התנהגויות נלוות ולא בהכרח יכולות בסיסיות אמיתיות — במיוחד כשמדובר בלוחות מובילים של סוכנים.
הנושא צבר תשומת לב בקהילת המחקר, שכן יותר ויותר חברות וחוקרים מסתמכים על תוצאות בנצ'מרקים כדי לבחור מודלים או להציג התקדמות. המאמר מציע לבחון מחדש את האופן שבו בונים את המבחנים האלה.
במקביל, TechCrunch מדווח כי גרג ברוקמן, ממייסדי OpenAI, מקבל אחריות רחבה יותר על אסטרטגיית המוצר בחברה. ברוקמן עצמו פעיל מאוד ב-X בימים האחרונים, כשהוא משתף תובנות על שימוש בטוקנים כקלט אוניברסלי לפתרון בעיות, שיפורים ב-Codex וגם על מתן גישה ל-ChatGPT Plus לכל תושבי מלטה.
גיוס בולט נוסף הגיע מ-Nectar Social, פלטפורמת Marketing OS שגייסה 30 מיליון דולר בסיבוב Series A בהובלת Menlo Ventures. ההשקעה משקפת את הביקוש הגובר לפתרונות שיווק מבוססי AI שמסוגלים לפעול בקנה מידה.
TechCrunch גם פרסם ניתוח על הפער בין חברות ה"יש" ל"אין" במרוץ הבינה המלאכותית — כאשר חלק מהשחקנים נהנים מגישה למשאבי מחשוב עצומים ואחרים נאלצים להתמודד עם מגבלות תקציביות.
סיפור ישן-חדש שחזר לשיח הוא זה של Cerebras, חברת השבבים ששווייה הוערך ב-60 מיליארד דולר. לפי הדיווח, החברה כמעט קרסה בשלבים המוקדמים כששרפה כ-8 מיליון דולר בחודש.
לבסוף, arXiv הודיעה על מדיניות חדשה: מחברים שיאפשרו ל-AI לבצע את כל העבודה על מאמר — ללא תרומה אנושית משמעותית — עלולים להיות מושעים לשנה. הצעד נועד לשמור על איכות ויושרה מדעית.
השיח ב-X סביב הנושאים האלה משקף קהילה שמתמודדת עם שאלות עמוקות על איך מודדים התקדמות, איך מממנים חברות AI ואיך שומרים על סטנדרטים מחקריים בעידן שבו הכלים משתפרים במהירות.
למה זה חשוב?
המאמר של DAIR.AI והמדיניות החדשה של arXiv מדגישים את הצורך בחשיבה ביקורתית על האופן שבו קהילת ה-AI מעריכה את עצמה. ככל שהתעשייה גדלה, כך גדל גם הסיכון להסתמך על מדדים שטחיים.
השורה התחתונה
היום השיח בעולם ה-AI סבב סביב שאלות של אמינות הערכה, גיוסי הון והתפקיד המשתנה של מייסדים בכירים בחברות המובילות.