خبر

  • تک بورد - آیا یادگیری ماشینی ماست؟ آرس به هوش مصنوعی فرو می رود

    آیا یادگیری ماشینی ماست؟ آرس به هوش مصنوعی فرو می رود
    15 روز و 15 ساعت قبل

    در قسمت اول یک سری جدید ، ما به دنبال تطبیق مشکل با ابزار هستیم.
    هر روز ، برخی از منطق های کوچک ساخته شده توسط بیت های بسیار خاصی از فناوری هوش مصنوعی تصمیماتی می گیرند که بر تجربه شما در جهان تأثیر می گذارد. این می تواند تبلیغاتی باشد که در شبکه های اجتماعی یا سایت های خرید به شما ارائه می شود ، یا تشخیص چهره که قفل تلفن شما را باز می کند ، یا راهنماهایی که برای رفتن به هر کجا که می خواهید ا

    در زمان کارمندی در Ars ، مقدار کمی در مورد هوش مصنوعی و یادگیری ماشین نوشتم. من با دانشمندان داده که در حال ساخت سیستم های تحلیلی پیش بینی بر اساس ترابایت دورسنجی از سیستم های پیچیده بودند صحبت کردم و با توسعه دهندگانی که سعی در ساخت سیستم هایی دارند که بتوانند از شبکه ها در برابر حملات دفاع کنند - یا در شرایط خاص ، آن حملات را مرحله بندی می کنم - گریه کردم. من همچنین خودم با استفاده از کد و سخت افزار برای اتصال موارد مختلف به رابط های برنامه نویسی هوش مصنوعی در لبه های این فن آوری قدم برداشته ام. (بعنوان مثال Bearlexa با نتایج ترسناک ایجاد می کند).

    خواندن بیشتر بیست دقیقه به آینده با OpenAI's Deep Fake Text AI

    بسیاری از مشکلاتی که ML می تواند در آنها اعمال شود وظایفی است که شرایط آن برای انسان واضح است. این به این دلیل است که ما آموزش دیده ایم تا از طریق مشاهده به این مشکلات پی ببریم - کدام گربه پرزدارتر است یا در چه ساعتی از روز بیشترین میزان ازدحام در ترافیک را دارد. سایر مشکلات مناسب ML را می توان توسط انسان و همچنین داده های خام کافی حل کرد - اگر انسان حافظه کامل ، بینایی کامل و یک درک آماری ذاتی از مدل داشته باشد.

    اما ماشین ها می توانند این کارها را انجام دهند وظایف بسیار سریعتر زیرا محدودیتهای انسانی ندارند. و ML به آنها این امکان را می دهد که این کارها را بدون نیاز به برنامه ریزی ریاضیات خاص در انسان انجام دهند. در عوض ، یک سیستم ML می تواند از داده های داده شده به خود بیاموزد (یا حداقل "یاد بگیرد") و خود یک مدل حل مسئله ایجاد کند.

    این قدرت bootstrappy همچنین می تواند یک نقطه ضعف باشد. درک اینکه سیستم ML چگونه به روند تصمیم گیری خود رسیده است معمولاً پس از ساخت الگوریتم ML غیرممکن است (علی رغم کار مداوم برای ایجاد ML قابل توضیح). و کیفیت نتایج بستگی زیادی به کیفیت و کمیت داده ها دارد. ML فقط می تواند به س questionsالاتی پاسخ دهد که از طریق خود داده قابل تشخیص است. داده های بد یا داده های ناکافی باعث ایجاد مدل های نادرست و یادگیری بد دستگاه می شوند.

    تبلیغات

    با وجود ماجراهای قبلی ، من هرگز ساخت واقعی سیستم های یادگیری ماشین را انجام نداده ام. من همه حرفه های فناوری را می شناسم ، و گرچه در تجزیه و تحلیل اطلاعات اولیه و اجرای انواع پرس و جوهای پایگاه داده مهارت دارم ، خودم را دانشمند داده یا برنامه نویس ML نمی دانم. ماجراهای گذشته من در پایتون بیشتر از ایجاد آن ها ، رابط هک است. و بیشتر مهارتهای رمزگذاری و تجزیه و تحلیل من ، بعداً به سمت بهره برداری از ابزارهای ML برای اهداف بسیار خاص مرتبط با تحقیقات امنیت اطلاعات معطوف شده است.

    تنها ابرقدرت واقعی من ترس از تلاش و شکست نیست. و با این کار ، خوانندگان ، من اینجا هستم تا این ابرقدرت را انعطاف دهم.

    وظیفه موجود

    در اینجا وظیفه ای است که برخی از نویسندگان Ars در آن فوق العاده مهارت دارند: نوشتن یک عنوان خوب. (بث مول ، لطفاً برای جمع آوری جایزه خود گزارش دهید.)

    و نوشتن عنوان سخت است! این یک وظیفه با محدودیت های بسیار است - بزرگترین طول (بزرگترین عناوین Ars به ​​70 حرف) ، اما در نزدیکی تنها مورد نیست. قرار گرفتن در یک فضای کوچک با داشتن اطلاعات کافی برای سرزنش دقیق و کافی یک داستان ، یک چالش است ، در حالی که همه مواردی را که باید در یک عنوان قرار دهید (سنتی "چه کسی ، چه ، کجا ، کی ، چرا ، و چند مورد) "مجموعه حقایق). برخی از عناصر پویا هستند - "چه کسی" یا "چه" با نامی خاص که شخصیت را می خورد ، واقعاً می تواند آچار را به چیزها بیندازد.

    به علاوه ، ما از تجربه می دانیم که ارس خوانندگان clickbait را دوست ندارند و وقتی فکر می کنند که آن را مشاهده می کنند قسمت نظرات را با تمسخر پر می کنند. ما همچنین می دانیم که مواردی وجود دارد که افراد بدون شکست روی آنها کلیک می کنند. و همچنین می دانیم که صرف نظر از موضوع ، برخی از عناوین منجر به کلیک بیشتر افراد بر روی آنها می شود. (آیا این clickbait است؟ یک بحث فلسفی در آنجا وجود دارد ، اما اصلی ترین چیزی که "عنوانی که همه می خواهند روی آن کلیک کنند" را از "clickbait" جدا می کند صداقت عنوان است - آیا داستان زیر عنوان به طور کامل وعده عنوان را ارائه می دهد؟)

    صرف نظر از این ، ما می دانیم که برخی از عناوین از سایر موارد تأثیرگذارتر هستند زیرا ما آزمایش A / B عناوین را انجام می دهیم. هر مقاله Ars با دو عنوان ممکن به آن اختصاص داده می شود و سپس سایت برای مدت کوتاهی هر دو گزینه را در صفحه اصلی ارائه می دهد تا ببیند کدام یک بیشترین بازدید را دارد.

    چند مطالعه انجام شده است توسط دانشمندان داده با تجربه بسیار بیشتر در مدل سازی داده ها و یادگیری ماشینی که به بررسی آنچه عناوین "clickbait" (عناوینی که دقیقاً برای جلب نظر تعداد زیادی از افراد برای کلیک بر روی یک مقاله طراحی شده اند) را از عناوین "خوب" (عناوینی که در واقع خلاصه می کنند) متمایز می کند. مقالات پشت سر آنها به طور م effectivelyثر و باعث نمی شود که شکایات طولانی درباره عناوین در توییتر یا نظرات را بنویسید). اما این مطالعات بیشتر بر روی درک محتوای عناوین بیشتر از تعداد کلیک واقعی آنها متمرکز شده است.

    تبلیغات

    برای گرفتن تصویری از آنچه خوانندگان در یک عنوان دوست دارند - و تلاش برای درک چگونگی برای نوشتن تیترهای بهتر برای مخاطبان Ars - من مجموعه ای از 500 عنوان را که از پنج سال گذشته با سریعترین کلیک روی آن کلیک کردم را بدست آوردم و پردازش زبان طبیعی را روی آنها انجام دادم. پس از حذف "کلمات توقف" - کلمات متداول در زبان انگلیسی که معمولاً با موضوع عنوان مرتبط نیستند - من یک ابر کلمه ایجاد کردم تا ببینم چه مضامین بیشترین توجه را به خود جلب می کنند.

    این است: شکل عناوین Ars.

    کلمه ای از رایج ترین کلماتی که در پنج سال گذشته در عناوین Ars ظاهر شده است. Enlarge / کلمه ای از متداول ترین کلماتی که طی پنج سال اخیر در عناوین روزنامه های Ars ظاهر شده است.

    تعداد زیادی ترامپ در آنجا وجود دارد - چند مورد اخیر سالها اخبار فن آوری زیادی را شامل دولت می شود ، بنابراین احتمالاً اجتناب ناپذیر است. اما این فقط کلمات برخی از عناوین برنده است. می خواستم درک کنم که تفاوت تیترهای برد و باخت چیست. بنابراین مجدداً پیکره همه جفت های تیترهای Ars را گرفتم و آنها را بین برندگان و بازندگان تقسیم کردم. اینها برندگان هستند:

    این کلمات از عناوینی می آیند که در آزمون A / B برنده شدند ... بزرگنمایی / این کلمات از عناوین اصلی عنوان می شوند که در آزمون A / B برنده شد ...

    و در اینجا بازنده ها هستند:

    ... و این کلمات از سر عناوین از دست رفته است. Enlarge / ... و این کلمات از عناوینی که از دست داده اند آمده است.

    به یاد داشته باشید که این عناوین دقیقاً برای همان عناوین برنده نوشته شده اند. و در بیشتر موارد ، آنها از همان کلمات استفاده می کنند - با برخی تفاوت های قابل توجه. در تیترهای از دست رفته "ترامپ" خیلی کمتر دیده می شود. "میلیون" در کسب عناوین بسیار مورد علاقه است ، اما در از دست دادن عناوین تا حدودی کمتر مورد پسند است. و کلمه "ممکن است" - یک کلمه کاملاً غیرقطعی - در از دست دادن عناوین بیشتر از برنده شدن یافت می شود.

    این اطلاعات جالب است ، اما به خودی خود به پیش بینی عنوان برای هر یک کمک نمی کند داستان ارائه شده موفقیت آمیز خواهد بود. آیا می توان با استفاده از ML پیش بینی کرد که آیا یک عنوان بیشتر یا بیشتر کلیک می کند؟ آیا می توانیم از خرد انباشته خوانندگان Ars برای ایجاد جعبه سیاه استفاده کنیم که بتواند پیش بینی کند کدام عناوین موفقیت بیشتری دارند؟

    اگر می دانم جهنم است ، اما ما سعی خواهیم کرد.

    همه اینها ما را به جایی که الان هستیم می رساند: ارس در چهار سال گذشته داده هایی در مورد بیش از 5500 تست سرفصل را به من داده است - 11000 عنوان با هرکدام با نرخ کلیک. ماموریت من ساخت یک مدل یادگیری ماشین است که بتواند محاسبه کند که چه چیزی تیتر یک Ars خوب است. منظور من از "خوب" یکی از جذابیت های شما خواننده ارس عزیز است. برای رسیدن به این مهم ، بودجه کمی برای محاسبه منابع وب سرویسهای آمازون و یک ماه شب و آخر هفته به من داده شده است (بعد از همه کارها ، یک روز کاری دارم). مشکلی نیست ، درست است؟

    قبل از شروع شکار Stack Exchange و سایت های مختلف Git برای راه حل های جادویی ، با این حال ، من می خواستم خودم را در آنچه با ML امکان پذیر است جستجو کنم و ببینم چه افراد با استعدادی بیش از آنچه که من قبلاً انجام داده ام با آن. این تحقیق به همان اندازه که یک منبع الهام است ، همانند یک نقشه راه برای راه حل های بالقوه است.





خبرهای دیگر از فناوری اطلاعات