خبر

  • تک بورد - آمازون GPU های Nvidia را به نفع سیلیکون خود رد می کند

    آمازون GPU های Nvidia را به نفع سیلیکون خود رد می کند
    27 روز و 15 ساعت قبل

    چه اتفاقی افتاده؟ آمازون اعلام کرده است که آنها در حال پردازش هوش مصنوعی خود به تراشه های سفارشی AWS Inferentia هستند. این بدان معناست که بزرگترین خدمات استنباط آمازون ، مانند دستیار مجازی الکسا ، به جای پردازنده های گرافیکی تا حدودی چند منظوره ، با سیلیکون سریعتر و تخصصی پردازش می شوند.

    آمازون در حال حاضر حدود 80٪ از پردازش های الکسا را ​​به موارد Elastic Compute Cloud (EC2) Inf1 منتقل کرده است ، که از تراشه های جدید AWS Inferentia استفاده می کنند. در مقایسه با نمونه های G4 ، که از پردازنده های گرافیکی سنتی استفاده می کردند ، نمونه های Inf1 توان تولید را 30٪ افزایش می دهند و هزینه ها 45٪ کاهش می یابد. آمازون حساب می کند که آنها بهترین نمونه های موجود در بازار برای استناد به زبانهای طبیعی و بارهای پردازش صدا هستند.

    الکسا به این شکل عمل می کند: جعبه بلندگو (یا همانطور که ممکن است استوانه باشد) اساساً هیچ کاری انجام نمی دهد ، در حالی که پردازنده های AWS در ابر همه کارها را انجام می دهند. یا به بیان فنی تر ... وقتی کلمه بیداری توسط تراشه دستگاه Echo شناسایی شد ، سیستم شروع به کار می کند. شروع به پخش مستقیم صدا به ابر در زمان واقعی می کند. صدا در یک مرکز داده در جایی خاموش است ، صدا به متن تبدیل می شود (این نمونه ای از استنباط است). سپس ، معنی از متن خارج می شود (نمونه دیگری از استنباط). اقدامات لازم مانند جمع آوری اطلاعات آب و هوای روز به اتمام رسیده است.

    الکسا پس از تکمیل درخواست شما ، لازم است پاسخ را به شما اعلام کند. آنچه او باید بگوید از میان اسکریپت های مدولار انتخاب شده است. سپس اسکریپت به یک فایل صوتی تبدیل می شود (نمونه دیگری از استنباط) و برای دستگاه Echo شما ارسال می شود. اکو پرونده را پخش می کند و شما تصمیم می گیرید که یک چتر بیاورید تا با شما کار کند.

    بدیهی است که استنباط قسمت بزرگی از کار است. جای تعجب نیست که آمازون میلیون ها دلار برای ساخت تراشه های استنتاج عالی سرمایه گذاری کرده است. هر کدام یک موتور ضرب ماتریس آرایه سیستولیک با عملکرد بالا "را اجرا می کنند." کم و بیش ، هر NeuronCore از تعداد بسیار زیادی واحد پردازش داده کوچک (DPU) تشکیل شده است که داده ها را به صورت خطی و مستقل پردازش می کند. هر تراشه Inferentia همچنین یک حافظه پنهان بزرگ دارد که باعث بهبود تأخیر می شود.





خبرهای دیگر از سخت افزار