بایگانی‌های ماشین لرنینگ - وبسایت شخصی محسن شفیعی

✳️☑️مشخصات زبان R

🔶زبان R برای اولین بار به عنوان یک پروژه تحقیقاتی توسط راس ایهاکا (Ross Ihaka) و رابرت جنتلمن (Robert Gentleman) نوشته شد، و در حال حاضر توسط گروهی از متخصصان علم آمار به نام “تیم هسته زبان R ” با صفحه ای در آدرس www.r-project.org در حال توسعه ی فعال می باشد.

زبان R به گونه‌ای طراحی شده، که بی شباهت به زبان نرم افزار S که توسط جان چمبرز (John Chambers) و دیگر افراد در آزمایشگاه‌های بل توسعه یافته بود نباشد. نسخه تجاری نرم افزار S با قابلیتهای بیشتر، توسط موسسه ی علوم آماری به عنوان نرم افزار SPlus توسعه یافته و به بازار عرضه شده؛ بعدها این نسخه نرم افزار SPlus، توسط شرکت Insightful خریداری شده و اکنون نیز متعلق به TIBCO Spotfire می باشد.زبان R و نرم افزار SPlus را می توان به عنوان دو پیاده‌ سازی زبان نرم افزار S در نظر گرفت.

زبان R بصورت رایگان در دسترس بوده و تحت پروانه ی عمومی همگانی، گنو (GNU) از بنیاد نرم افزارهای آزاد (FreeSoftware Foundation) توزیع می گردد. شما می توانید این برنامه را از شبکه جامع آرشیو نرم افزار R در (CRAN) دانلود نمایید. باینری های آماده اجرای زبان R برای سیستم عامل های ویندوز (Windows)، مک او اس ایکس (Mac OS X) و لینوکس (Linux) در دسترس می باشد.

کد منبع (source code) نیز قابل دانلود بوده و می تواند برای سیستم عامل های دیگر کامپایل شود.
حاوی محدوده گسترده‌ای از تکنیک‌های آماری (از جمله: مدل‌سازی خطی و غیرخطی، آزمون‌های کلاسیک آماری، تحلیل سری‌های زمانی، رده‌بندی، خوشه‌بندی و …) و قابلیت‌های گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره می‌توانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.گرچه نرم‌افزار R اغلب به منظور انجام محاسبات آماری به کار می‌رود، این نرم‌افزار قابل به کارگیری در محاسبات ماتریسی است و در این زمینه، همپای نرم‌افزارهایی چون اُکتاو و نسخه تجاری آن متلب (MATLAB) است. R، همچنین زبانی قدرتمندی برای ایجاد اشکال گرافیکی و نمودارهاست.

به سرعت در حال تبدیل شدن به مهم ترین زبان برنامه نویسی برای هر دو، زیست شناسان تجربی و محاسباتی است .به خوبی طراحی شده است، بسیار کارآمد و به طور گسترده ای مورد استفاده قرار می گیرد و دارای یک پایگاه بسیار زیادی از همکاران و کاربرانی است که که قابلیت های جدید برای تمام جنبه های مدرن از تجزیه و تحلیل داده ها و تجسم را به آن اضافه میکنند. علاوه بر آن رایگان و منبع باز است

شما می توانید از R برای تقریبا تمام موضوعات بیوانفورماتیک، پروتئومیکس، تجزیه و تحلیل آماری استفاده کنید بطور مثال(Flow Cytometry, text and data mining, Seqeunce ,NGS,manipulation)
رابرت مونچن امار دانی که این زبان را تدریس میکند ،این زبان به عنوان محبوب ترین زبان برنامه نویسی در زمینه عملیات پژوهشی در سال 2015 اعلام کرده است نا گفته نماند ایشان به عنوان مسئول براورد محبوبیت نرم افزارهای پژوهشی نیز هستند.

و در اخر خاص بودن R را در:

1-مجموعه قوی از عملگرهای محاسباتی
2-کتابخانه های خاص چند منظوره
3-بسته های نرم افزاری قدرتمند برای تجزیه و تحلیل
4-دارای مستندات فرمت بندی شده
5-قابلیت شبیه سازی های گوناگون
می توان دانست

یک مثال ساده از استفاده از یادگیری عمیق ماشین های هوشمند

یک شبیه سازی کوچک دوبعدی که در آن اتومبیل ها می توانند از طریق یک دوره به خودشان آموزش بددهند، با استفاده از یک شبکه عصبی و الگوریتم های تکاملی.

۱- مقدمه ای بر علم داده

داده ها توصیف جهان اطراف ما هستند، جمع آوری شده از طریق مشاهده و ذخیره شده در کامپیوتر. کامپیوترها ما را قادر میسازند از خواص این توصیفها خواص جهان را بیاموزند. داده های علمی رشته ای است که نتیجه گیری را از داده ها با استفاده از محاسبات انجام می دهد. سه جنبه اصلی تحلیل داده موثر وجود دارد: اکتشاف، پیش بینی و استنتاج. این متن یک رویکرد منسجم برای همه سه را ایجاد می کند، همزمان با ارائه ایده های آماری و ایده های اساسی در علوم رایانه ای. ما بر روی حداقل مجموعه تکنیک های هسته ای تمرکز می کنیم که می تواند به طیف گسترده ای از برنامه های دنیای واقعی اعمال شود. پایه و اساس در علوم داده نیاز به درک روش های آماری و محاسباتی، بلکه شناخت نحوه اعمال آنها در سناریوهای واقعی است.

برای هر جنبه ای از جهان که می خواهیم مطالعه کنیم – چه در شرایط آب و هوایی زمین – در بازار بورس ، نظرسنجی های سیاسی و یا داده های ذهنی انسان که معمولا جمع آوری می کنیم، معمولن در یک چالش اصلی از علوم داده ها، ایجاد نتیجه قابل اعتماد با استفاده از این اطلاعات جزئی است.

در این تلاش، دو ابزار ضروری را شامل می شود: محاسبات و تصادفی ساختن. به عنوان مثال، ممکن است ما بخواهیم روند اصلاحات آب و هوایی را با استفاده از مشاهدات دما درک کنیم. کامپیوترها به ما اجازه می دهند از تمام اطلاعات موجود برای نتیجه گیری استفاده کنیم. به جای تمرکز فقط بر میانگین دمای یک منطقه، تمام محدوده دما را با هم برای تحلیل بیشتر و دقیق تر بررسی خواهیم کرد. تصادفی ساختن به ما امکان می دهد تا راه های مختلفی را که اطلاعات ناقص را کامل می کند، بررسی کنیم. ما یاد خواهیم گرفت که تصادفی بودن را به عنوان راهی برایی ازمایش کردن بسیاری از سناریوهای احتمالی که همگی با اطلاعاتی که مشاهده می کنیم، استفاده کنیم.

استفاده از این رویکرد نیازمند یادگیری ماشین است بنابراین در ادامه این متن راهکارهای کامل برنامه نویسی را شامل می شود، و نیازی نیست هیچ دانش قبلی ای را داشته باشید . خوانندگان با تجربه برنامه نویسی متوجه خواهند شد که ما در زمینه محاسبات چند موضوعی را پوشش می دهیم که در یک برنامه نویسی معمول شباهتی ندارد . علم داده ها همچنین نیاز به استدلال دقیق در مورد مقادیر و جبر خطی و … دارد ، اما این متن هیچ پیش زمینه ای در ریاضیات یا آمار و جبر خطی ندارد . زود به سمت برنامه نویسی خواهیم رفت . البته با پایتون

علم اطلاعات چیست؟

علوم داده ها در مورد ایجاد نتیجه های مفید از مجموعه داده های متنوع و وسیع از طریق اکتشاف، پیش بینی و استنتاج است. اکتشاف شامل شناسایی الگوها در اطلاعات است. پیش بینی شامل استفاده از اطلاعاتی است که ما می دانیم برای تهیه حدس های آگاهانه درباره ارزش هایی که می خواهیم بدانیم. استنتاج شامل تعیین میزان درجه اطمینان ما می شود: آیا این الگوهایی که یافتیم نیز در مشاهدات جدید ظاهر می شوند؟ پیش بینی های ما دقیق است؟ ابزار اصلی ما برای اکتشاف، تصویربرداری و آمار توصیفی است، برای پیش بینی، یادگیری ماشین و بهینه سازی است و برای استنتاج آزمون ها و مدل های آماری است.

آمار یکی از مولفه های اصلی علوم داده است؛ زیرا آمارها چگونگی نتیجه گیری قوی با اطلاعات ناقص را بررسی می کند. محاسبات جزء مرکزی است زیرا برنامه نویسی به ما امکان می دهد تکنیک های تجزیه و تحلیل را به مجموعه های داده های متنوع و گسترده ای که در برنامه های دنیای واقعی بوجود می آیند، اعمال کنیم: نه تنها اعداد، بلکه متن، تصاویر، فیلم ها و خواندن از حسگر. علم داده ها همه این موارد است، اما بیشتر از مجموع قطعات آن به دلیل برنامه های کاربردی است. از طریق درک یک دامنه خاص، دانشمندان داده یاد می گیرند از سوالات مناسب در مورد داده های خود بپرسند و پاسخ های ارائه شده توسط ابزار استنتاجی و محاسباتی ما را به درستی تفسیر کنند.