نوامبر 2018 - وبسایت شخصی محسن شفیعی

یک مثال ساده از استفاده از یادگیری عمیق ماشین های هوشمند

یک شبیه سازی کوچک دوبعدی که در آن اتومبیل ها می توانند از طریق یک دوره به خودشان آموزش بددهند، با استفاده از یک شبکه عصبی و الگوریتم های تکاملی.

۱- مقدمه ای بر علم داده

داده ها توصیف جهان اطراف ما هستند، جمع آوری شده از طریق مشاهده و ذخیره شده در کامپیوتر. کامپیوترها ما را قادر میسازند از خواص این توصیفها خواص جهان را بیاموزند. داده های علمی رشته ای است که نتیجه گیری را از داده ها با استفاده از محاسبات انجام می دهد. سه جنبه اصلی تحلیل داده موثر وجود دارد: اکتشاف، پیش بینی و استنتاج. این متن یک رویکرد منسجم برای همه سه را ایجاد می کند، همزمان با ارائه ایده های آماری و ایده های اساسی در علوم رایانه ای. ما بر روی حداقل مجموعه تکنیک های هسته ای تمرکز می کنیم که می تواند به طیف گسترده ای از برنامه های دنیای واقعی اعمال شود. پایه و اساس در علوم داده نیاز به درک روش های آماری و محاسباتی، بلکه شناخت نحوه اعمال آنها در سناریوهای واقعی است.

برای هر جنبه ای از جهان که می خواهیم مطالعه کنیم – چه در شرایط آب و هوایی زمین – در بازار بورس ، نظرسنجی های سیاسی و یا داده های ذهنی انسان که معمولا جمع آوری می کنیم، معمولن در یک چالش اصلی از علوم داده ها، ایجاد نتیجه قابل اعتماد با استفاده از این اطلاعات جزئی است.

در این تلاش، دو ابزار ضروری را شامل می شود: محاسبات و تصادفی ساختن. به عنوان مثال، ممکن است ما بخواهیم روند اصلاحات آب و هوایی را با استفاده از مشاهدات دما درک کنیم. کامپیوترها به ما اجازه می دهند از تمام اطلاعات موجود برای نتیجه گیری استفاده کنیم. به جای تمرکز فقط بر میانگین دمای یک منطقه، تمام محدوده دما را با هم برای تحلیل بیشتر و دقیق تر بررسی خواهیم کرد. تصادفی ساختن به ما امکان می دهد تا راه های مختلفی را که اطلاعات ناقص را کامل می کند، بررسی کنیم. ما یاد خواهیم گرفت که تصادفی بودن را به عنوان راهی برایی ازمایش کردن بسیاری از سناریوهای احتمالی که همگی با اطلاعاتی که مشاهده می کنیم، استفاده کنیم.

استفاده از این رویکرد نیازمند یادگیری ماشین است بنابراین در ادامه این متن راهکارهای کامل برنامه نویسی را شامل می شود، و نیازی نیست هیچ دانش قبلی ای را داشته باشید . خوانندگان با تجربه برنامه نویسی متوجه خواهند شد که ما در زمینه محاسبات چند موضوعی را پوشش می دهیم که در یک برنامه نویسی معمول شباهتی ندارد . علم داده ها همچنین نیاز به استدلال دقیق در مورد مقادیر و جبر خطی و … دارد ، اما این متن هیچ پیش زمینه ای در ریاضیات یا آمار و جبر خطی ندارد . زود به سمت برنامه نویسی خواهیم رفت . البته با پایتون

علم اطلاعات چیست؟

علوم داده ها در مورد ایجاد نتیجه های مفید از مجموعه داده های متنوع و وسیع از طریق اکتشاف، پیش بینی و استنتاج است. اکتشاف شامل شناسایی الگوها در اطلاعات است. پیش بینی شامل استفاده از اطلاعاتی است که ما می دانیم برای تهیه حدس های آگاهانه درباره ارزش هایی که می خواهیم بدانیم. استنتاج شامل تعیین میزان درجه اطمینان ما می شود: آیا این الگوهایی که یافتیم نیز در مشاهدات جدید ظاهر می شوند؟ پیش بینی های ما دقیق است؟ ابزار اصلی ما برای اکتشاف، تصویربرداری و آمار توصیفی است، برای پیش بینی، یادگیری ماشین و بهینه سازی است و برای استنتاج آزمون ها و مدل های آماری است.

آمار یکی از مولفه های اصلی علوم داده است؛ زیرا آمارها چگونگی نتیجه گیری قوی با اطلاعات ناقص را بررسی می کند. محاسبات جزء مرکزی است زیرا برنامه نویسی به ما امکان می دهد تکنیک های تجزیه و تحلیل را به مجموعه های داده های متنوع و گسترده ای که در برنامه های دنیای واقعی بوجود می آیند، اعمال کنیم: نه تنها اعداد، بلکه متن، تصاویر، فیلم ها و خواندن از حسگر. علم داده ها همه این موارد است، اما بیشتر از مجموع قطعات آن به دلیل برنامه های کاربردی است. از طریق درک یک دامنه خاص، دانشمندان داده یاد می گیرند از سوالات مناسب در مورد داده های خود بپرسند و پاسخ های ارائه شده توسط ابزار استنتاجی و محاسباتی ما را به درستی تفسیر کنند.