خبر

  • تک بورد - حفظ علم قابل تکرار در دنیایی از کد و داده های سفارشی

    حفظ علم قابل تکرار در دنیایی از کد و داده های سفارشی
    18 روز و 14 ساعت قبل

    تحلیل رایانه‌ای اکنون بخش مرکزی علم است.
    اغلب گفته می‌شود که تفاوت علم و خرافات در این است که علم تکرارپذیر است. متأسفانه، بسیاری از مقالات علمی اینطور نیستند و آنها را به اندازه خرافات قابل اعتماد می کند.

    از اواسط دهه 1600، خروجی یک مطالعه علمی معمولی یک مقاله مجله ای به سبک مقاله است که نتایج را توصیف می کند. اما امروزه، در زمینه‌های مختلف از نجوم گرفته تا میکروبیولوژی، بسیاری از کارهای فنی برای یک مقاله ژورنالی شامل نوشتن کد برای دستکاری مجموعه داده‌ها است. اگر داده‌ها و کد در دسترس نباشد، دیگر محققان نمی‌توانند کار نویسندگان اصلی را بازتولید کنند و مهمتر از آن، ممکن است نتوانند بر روی کار برای کشف روش‌ها و اکتشافات جدید بنا کنند.

    با تشکر از تغییرات فرهنگی و نیازهای مالی، محققان بیشتری در حال آماده شدن برای باز کردن داده ها و کد باز هستند. حتی مجلات 100 ساله مانند فصلنامه اقتصاد یا مجله انجمن آماری سلطنتی اکنون نویسندگان را ملزم می کنند که مواد تکراری - از جمله داده ها و کدها - را با هر مقاله کمی ارائه دهند. برخی از محققان از پارادایم جدید استقبال می کنند و ارزش پیشبرد علم را از طریق همکاری عمیق تر می دانند. اما دیگران بار یادگیری استفاده از ابزارهای مرتبط با توزیع مانند Git، Docker، Jupyter، و دیگر کلمات نه چندان زیاد را احساس می کنند. محقق ابتکار Make Data Count، ایده‌آل‌هایی را که این الزامات اشتراک‌گذاری داده‌ها آرزوی آن را دارند، توصیف می‌کند. او می‌گوید: «ما جهانی می‌خواهیم که در آن داده‌ها به طور معمول برای کشف، پیشرفت علم، برای سیاست‌های مبتنی بر شواهد و داده‌محور استفاده شوند. در بعضی جاها، آینده همین جاست. او می‌گوید: «مجموعه‌های داده‌ای وجود دارند که کل زمینه‌ها را هدایت می‌کنند، و «زمینه تحقیق بدون این مجموعه‌های داده باز که آن را هدایت می‌کنند، به جایی نمی‌رسد که هست». به عنوان مثال، او به این مجموعه داده از تراکم چوب 16468 درخت اشاره می کند که بیش از 17000 بار دانلود شده است.

    با در نظر گرفتن این ایده آل، سردبیران مجلات به طور فزاینده ای انتشار را به داده ها و کد باز منوط می کنند. . من حدود 2700 مجله منتشر شده توسط Springer، یکی از بزرگ‌ترین ناشران مجلات دانشگاهی، را برای دستورالعمل‌های ارسال بررسی کردم که بیان می‌کند نویسندگان باید همه مطالب مانند داده‌ها و کد را در دسترس قرار دهند.

    تبلیغات

    نتایج نشان می‌دهد که داده‌های باز و کد در برخی زمینه ها بیشتر از سایر زمینه ها سفارشی است. در بین مجلات بوم شناسی، 37 درصد نیاز به در دسترس بودن دارند، در حالی که تنها 7 درصد از مجلات جراحی و 6 درصد از مجلات آموزشی دارای نیاز هستند. رشته‌های دیگر بین این افراط‌ها قرار دارند، به طوری که 16 تا 19 درصد مجلات مدیریت، مهندسی، فیزیک، اقتصاد، پزشکی عمومی و روانشناسی چنین الزامی را بیان می‌کنند.

    https://techbord.com حفظ علم قابل تکرار در دنیایی از کد و داده های سفارشیEnlargeBen Klemens

    این الزامات اشتراک گذاری اغلب به یک استاندارد "در دسترس بر اساس درخواست" برگزار می شود. اما درخواست ها ممکن است مورد توجه قرار نگیرند.

    از سال 2017 تا 2019، تسویوشی میاکاوا، سردبیر مجله Molecular Brain، به 41 مقاله ارسالی پاسخ داد و از نویسندگان درخواست کرد که اطلاعات کامل منبع خود را برای بررسی ارائه کنند. ، طبق خط مشی اعلام شده مجله. فقط یک نویسنده این کار را انجام داد.

    مجله Science سیاستی دارد که داده ها و مطالبی مانند کد باید در صورت درخواست در دسترس باشند. ویکتوریا استودن و همکارانش این سیستم را آزمایش کردند. از بین 204 مقاله ای که از مجله انتخاب کردند، تیم استودن با موفقیت به مواد 89 مقاله دسترسی پیدا کرد. درخواست‌های نویسندگان ۱۱۵ مورد دیگر هیچ پاسخی دریافت نکردند، وعده‌های محقق نشده، تغییر مسیرهای بی‌ثمر یا امتناع گاهاً تهاجمی دریافت نکردند.

    بر اساس تلاش‌های او برای تکرار مقالات سایر آماردانان، توماس لوملی، استاد آمار زیستی در دانشگاه اوکلند در نیوزیلند، در مورد عبارت داده‌های موجود در صورت درخواست می‌گوید: «وقتی افراد آن را در مقالات خود قرار می‌دهند، منظورشان معمولاً «داده‌ها در دسترس نیست» است.»

    در نتیجه، یک تعداد فزاینده سرمایه‌گذاران و مجلات در حال حاضر مستلزم آن است که محققان برنامه‌ای رسمی برای انتشار داده‌های خود داشته باشند.

    موسسه ملی بهداشت (NIH) بیش از 30 میلیارد دلار کمک‌های مالی تحقیقاتی رقابتی در سال 2020 و هر درخواست کمک مالی داده است. با یک جزء داده باید شامل یک برنامه مدیریت داده و اشتراک گذاری باشد. متقاضیان تشویق می شوند کارهای خود را در مخازن تاسیس شده، مانند پایگاه داده ژنوتیپ ها و فنوتیپ های NIH (dbGap) سپرده گذاری کنند. اگر ترجیح می‌دهید بخشی از کمک‌های مالی چند میلیارد دلاری که هر سال توسط بنیاد ملی علوم اعطا می‌شود داشته باشید، به یک برنامه مدیریت داده نیز نیاز دارید.





خبرهای دیگر از علوم پایه