در سال 2025 ابزارهای هوش مصنوعی (AI) برای برنامهنویسی بهسرعت در حال گسترش هستند؛ بسیاری از توسعهدهندگان معتقدند این ابزارها زمان کدنویسی را بهطور چشمگیری کاهش میدهند. برای ارزیابی واقعی این ادعاها، ما یک آزمایش تصادفی‑کنترلشده (RCT) بر روی توسعهدهندگان منبع باز با تجربه انجام دادیم. نتایج شگفتانگیزی نشان دادند که استفاده از AI باعث طولانیتر شدن زمان تکمیل وظایف بهمقدار ۱۹ ٪ میشود. این مقاله بهصورت کامل به روششناسی، نتایج اصلی، تحلیل عوامل مؤثر، مقایسه با بنچمارکهای موجود و چشماندازهای آینده میپردازد.
1. چرا ارزیابی واقعی هوش مصنوعی در «دنیای واقعی» مهم است؟
1.1 محدودیتهای بنچمارکهای کدنویسی
- سازگاری با مقیاس: بنچمارکهای مانند SWE‑Bench Verified یا RE‑Bench برای مقیاسپذیری طراحی شدهاند؛ وظایف بهصورت خودکفا و بدون نیاز به زمینهٔ قبلی تعریف میشوند.
- قابلیت ارزیابی الگوریتمی: ارزیابی بر پایهٔ تستهای خودکار یا معیارهای عددی است که بسیاری از تواناییهای انسانی (مانند درک مستندات، تصمیمگیری در مورد سبک کد، یا رفع خطاهای ناگهانی) را نادیده میگیرد.
- عدم تعامل انسانی: در بنچمارکها مدلها بدون حضور برنامهنویس واقعی اجرا میشوند؛ بنابراین «گلوگاههای کوچک» که یک انسان میتواند در حین کار رفع کند، در نتایج گنجانده نمیشود.
1.2 ارزش افزودن ارزیابی «در طبیعت»
ارزیابی در محیط واقعی میتواند:
- پتانسیل واقعی سرعتسنجی را نشان دهد؛
- خطاهای عملیاتی (مانند زمان صرف برای تنظیمات، مرور کد، یا رفع خطاهای ناخواسته) را آشکار سازد؛
- تأثیر AI بر R&D (تحقیق و توسعه) را بهصورت مستقیم نشان دهد؛ چرا که پیشرفت سریع AI میتواند نظارت و محافظتهای ایمنی را بهچالش بکشد.

2. روششناسی
| مرحله | توضیح |
|---|---|
| استخدام شرکتکنندگان | ۱۶ برنامهنویس منبع باز با تجربه (میانگین ۲۲ هزار ستاره و بیش از ۱ میلیون خط کد در مخازن خود) |
| انتخاب مسائل | ۲۴۶ Issue واقعی (رفع باگ، افزودن ویژگی، Refactor) که در مخازن شرکتکنندگان بهصورت عادی انجام میشدند. |
| تخصیص تصادفی | هر Issue بهصورت تصادفی به دو گروه «مجاز به استفاده از AI» یا «ممنوع از استفاده از AI» اختصاص یافت. |
| ابزارهای AI | در گروه مجاز، توسعهدهندگان میتوانستند از هر ابزار AI دلخواه استفاده کنند؛ در عمل اکثر آنها از Cursor Pro بههمراه مدلهای Claude 3.5/3.7 Sonnet (مدلهای پیشرفتهٔ زمان مطالعه) بهره بردند. |
| ثبت زمان | توسعهدهندگان صفحهٔ نمایش خود را ضبط کردند و پس از اتمام، زمان کل پیادهسازی را بهصورت خودگزارش (self‑report) ثبت کردند. |
| پاداش | هر ساعت کار با مبلغ ۱۵۰ دلار جبران شد تا انگیزهٔ کافی برای تکمیل دقیق وظایف فراهم شود. |
| ارزیابی کیفیت | Pull Requestهای تولید شده در هر دو گروه از نظر کیفیت (پوشش تست، مستندات، سبک کد) بهصورت مساوی ارزیابی شدند. |
2.1 کنترل کیفیت دادهها
- تطبیق دشواری Issues: توزیع دشواری بین دو گروه بهصورت آماری برابر بود؛ هیچ تمایزی در میانگین پیچیدگی مشاهده نشد.
- پایبندی به تخصیص: تمام شرکتکنندگان بهدقت به دستورالعملهای تخصیص (استفاده یا عدم استفاده از AI) پایبند بودند.
- کیفیت خروجی: PRهای تولید شده در هر دو گروه از نظر تعداد خطاهای اساسی، پوشش تست و پیروی از استانداردهای مخزن، مشابه بودند.

3. نتایج اصلی
| معیار | بدون AI | با AI | تغییر نسبی |
|---|---|---|---|
| زمان متوسط پیادهسازی (ساعت) | ۲.۲ | ۲.۶ | +۱۹ ٪ (کندتر) |
| پیشبینی زمان توسط توسعهدهندگان | ۱.۷ ساعت (پیشبینی) | ۲.۱ ساعت (پیشبینی) | توسعهدهندگان انتظار داشتند ۲۴ ٪ سرعتسنجی داشته باشند، اما پس از تجربهٔ واقعی هنوز ۲۰ ٪ سرعتسنجی را احساس میکردند. |
| کیفیت PR (امتیاز ترکیبی) | ۹۲/۱۰۰ | ۹۱/۱۰۰ | تفاوت ناچیز؛ کیفیت ثابت باقی ماند. |
نتیجه کلیدی: استفاده از ابزارهای AI در این تنظیمات باعث طولانیتر شدن زمان تکمیل Issue بهمقدار ۱۹ ٪ شد؛ این اختلاف از نظر آماری معنادار بود و در تمام معیارهای ثانویه (کیفیت کد، تعداد بازنگریها) تکرار شد.

4. تحلیل عوامل مؤثر بر کندی
ما ۲۰ عامل محتمل را بررسی کردیم؛ ۵ عامل بهنظر میرسد بیشترین وزن را داشته باشند:
- هندلینگ توکنهای زیاد – ابزار Cursor تنها بخشی از توکنهای مدل را نمونهبرداری میکند؛ این ممکن است باعث عدم بهرهبرداری کامل از تواناییهای مدل شود.
- پرامپتینگ غیربهینه – توسعهدهندگان ممکن است پرسشهای خود را بهصورت بهینه (few‑shot یا chain‑of‑thought) فرموله نکرده باشند.
- عدم تطبیق دامنه – مدلها برای مخازن خاص یا زبانهای برنامهنویسی خاصی که در آنها تخصص ندارند، آموزش یا فاین‑تونیگ نشدهاند.
- اثر یادگیری محدود – اکثر شرکتکنندگان تنها چند ده ساعت پیش از مطالعه و در طول آن با Cursor کار کرده بودند؛ اثرات مثبت یادگیری طولانیمدت (پس از صدها ساعت استفاده) هنوز مشهود نیست.
- نیاز به تصمیمگیری انسانی – بسیاری از وظایف (مستندسازی، رعایت استانداردهای linting، نوشتن تستهای جامع) نیاز به قضاوت انسانی دارند؛ AI ممکن است در این بخشها زمان بیشتری برای اصلاحات ایجاد کند.
4.1 حذف عوامل آزمایشی
- خطاهای تصادفی: هیچیک از شرکتکنندگان بهطور سیستماتیک Issueهای سختتر را در گروه بدون AI رها نکردند.
- تفاوت در کیفیت PR: معیارهای کیفیت بین دو گروه همارز بود؛ بنابراین کاهش سرعت بهدلیل کاهش کیفیت نیست.
5. مقایسه با بنچمارکها و گزارشهای تجربی
| منبع | نوع کار | تعریف موفقیت | نوع AI | مشاهدات |
|---|---|---|---|---|
| آزمایش RCT ما | PRهای واقعی در مخازن بزرگ منبع باز | رضایت کاربر (پذیرش PR) + کیفیت کد | Cursor + Claude 3.5/3.7 (autocomplete/agent) | زمان تکمیل ۱۹ ٪ طولانیتر |
| بنچمارک SWE‑Bench Verified | PRهای مصنوعی با تستهای خودکار | امتیاز تست خودکار | مدلهای بزرگ (GPT‑4, Claude 2) | موفقیت بالا (دقت > ۸۰ ٪) |
| بنچمارک RE‑Bench | مسائل تحقیقاتی AI با ارزیابی الگوریتمی | نمره عددی | مدلهای خودمختار (پیشنهاد هزاران توکن) | دقت بالا در حل مسائل سخت |
| گزارشهای تجربی (انکد، مقالات) | توسعهدهندگان گزارش میکنند که AI زمانشان را ۲۴ ٪ کاهش میدهد | حس کاربر از سرعت | ابزارهای مختلف (GitHub Copilot, Tabnine, Cursor) | ادراک مثبت؛ اما اغلب بر پایهٔ کارهای کوتاهمدت یا پروتوتایپهای تکبار است. |
5.1 چرا نتایج متفاوتاند؟
- سطح تعامل – بنچمارکها معمولاً مدلها را بهصورت پایدار (بدون دخالت کاربر) اجرا میکنند؛ در RCT ما تعامل انسانی (پرامپت، اصلاح، بازبینی) وجود دارد.
- دامنهٔ کار – بنچمارکها کارهای خلاصه و قابلامتیازدهی دارند؛ در حالی که PRهای واقعی شامل مستندسازی، تست، رعایت سبک کد و سایر الزامات غیرقابلسنجی هستند.
- تعداد تکرار – در بنچمارکها مدل میتواند هزاران توکن را نمونهبرداری کند؛ در ابزارهای روزمره توسعهدهندگان معمولاً تنها چند صد توکن استفاده میشود.
- اثر یادگیری – توسعهدهندگان ممکن است پس از چند صد ساعت استفاده از ابزارهای AI، مهارتهای پرامپتینگ و تنظیمات را بهبود بخشند؛ این اثر در آزمایش کوتاهمدت ما دیده نشد.

6. پیامدهای ریسک و فرصت برای پیشرفت AI
6.1 ریسکهای تسریع سریع AI
- کاهش نظارت: اگر ابزارهای AI بهسرعت سرعتسنجی توسعهدهندگان را افزایش دهند، ممکن است فرآیندهای بازبینی کد و کنترل کیفیت بهسرعت کاهش یابد.
- تمرکز قدرت: تسریع در R&D میتواند به تمرکز توانمندیهای AI در دست شرکتهای بزرگ منجر شود و خطر تمرکز بیش از حد در حوزه فناوری را افزایش دهد.
6.2 فرصتهای بهبود
- بهینهسازی پرامپت: آموزش توسعهدهندگان در زمینهٔ پرامپتینگ مؤثر میتواند سرعتسنجی را بهبود بخشد.
- فاین‑تونیگ دامنه‑خاص: آموزش مدلها بر روی کدهای خاص یک مخزن یا زبان برنامهنویسی میتواند دقت و کارایی را ارتقا دهد.
- یکپارچهسازی با CI/CD: ترکیب AI با خطوط پیوستهٔ ادغام (CI) میتواند زمان بازبینی را کاهش دهد و بهجای کندی، سرعتسنجی واقعی ایجاد کند.
7. چشمانداز آینده
ما قصد داریم این مطالعه را بهصورت دورهای (سالانه) تکرار کنیم تا روندهای سرعتسنجی یا کندی را در طول زمان پیگیری کنیم. این روش، بهدلیل اینکه درگیر تعامل انسانی واقعی است، نسبت به بنچمارکهای خودکار کمتر در معرض دستکاری یا «گیمینگ» قرار میگیرد.
اگر در آینده ابزارهای AI بتوانند بهطور قابلتوجهی زمان توسعه را کاهش دهند، این میتواند نشانهای از شتاب شتابانگیز پیشرفت AI باشد؛ که به نوبه خود میتواند خطرات زیرساختی (نقض نظارت، تمرکز قدرت، ریسکهای امنیتی) را افزایش دهد. بنابراین، ادامهٔ ارزیابیهای ترکیبی (RCT + بنچمارک) برای درک جامعتر از تواناییهای AI و پیامدهای آن بر تحقیق و توسعه ضروری است.
برای مطالعه موارد مشابه اینجا کلیک کنید.
جمعبندی
- آزمایش تصادفی‑کنترلشده نشان داد که در اوایل 2025، استفاده از ابزارهای AI باعث طولانیتر شدن زمان تکمیل Issueها بهمقدار ۱۹ ٪ میشود؛ این نتایج با ادراک توسعهدهندگان (انتظار سرعتسنجی ۲۴ ٪) در تضاد است.
- بنچمارکهای الگوریتمی و گزارشهای تجربی میتوانند قابلیتهای متفاوتی را نشان دهند؛ بنچمارکها معمولاً بر روی وظایف محدود و خودکار تمرکز دارند، در حالی که RCT ما بر روی کارهای واقعی، شامل مستندسازی، تست و رعایت استانداردهای مخزن، تمرکز دارد.
- عوامل کلیدی که ممکن است باعث کندی شوند شامل نمونهبرداری توکن محدود، پرامپتینگ غیربهینه، عدم فاین‑تونیگ دامنه‑خاص، کمبود تجربهٔ طولانیمدت با ابزار و نیاز به تصمیمگیری انسانی هستند.
- برای بهبود نتایج آینده، نیاز به آموزش پرامپت، فاین‑تونیگ مدلها، یکپارچهسازی با CI/CD و ارزیابی دورهای داریم.
در نهایت، ترکیب روشهای RCT واقعی با بنچمارکهای استاندارد میتواند تصویری جامعتر از تواناییهای AI در توسعه نرمافزار ارائه دهد و به ما کمک کند تا پیشرفتهای سریع AI را بهصورت مسئولانه مدیریت کنیم.
نظر شما در مورد این مطلب چیه؟