جستجو برای:
سبد خرید 0
  • صفحه اصلی
    • مطالب آموزشی
    • معرفی کتاب
    • مقالات منتشر شده
    • نمونه کار
    • اخبار
  • فروشگاه
    • حساب کاربری
    • پرداخت
    • سبد خرید
  • بلاگ
  • درباره ما
  • تماس باما
کاوشگران اطلاعات نبض داده

ورود

گذرواژه خود را فراموش کرده اید؟

ثبت نام

  • 09304547064
  • datapulse94@gmail.com
کاوشگران اطلاعات نبض داده
  • صفحه اصلی
    • مطالب آموزشی
    • معرفی کتاب
    • مقالات منتشر شده
    • نمونه کار
    • اخبار
  • فروشگاه
    • حساب کاربری
    • پرداخت
    • سبد خرید
  • بلاگ
  • درباره ما
  • تماس باما
آخرین اطلاعیه ها
جهت نمایش اطلاعیه باید وارد سایت شوید
ورود/ثبت نام
0

وبلاگ

کاوشگران اطلاعات نبض داده > بلاگ > معرفی کتاب > کتاب حیرت انگیز R برای علم داده

کتاب حیرت انگیز R برای علم داده

سپتامبر 9, 2022
ارسال شده توسط nasrin talkhi
معرفی کتاب

Data science is a huge field, and there’s no way you can master it by reading a single book. The goal of this book is to give you a solid foundation in the most important tools. Our model of the tools needed in a typical data science project looks something like this:

First you must import your data into R. This typically means that you take data stored in a file, database, or web API, and load it into a data frame in R. If you can’t get your data into R, you can’t do data science on it!

Once you’ve imported your data, it is a good idea to tidy it. Tidying your data means storing it in a consistent form that matches the semantics of the dataset with the way it is stored. In brief, when your data is tidy, each column is a variable, and each row is an observation.
Tidy data is important because the consistent structure lets you focus your struggle on questions about the data, not fighting to get the data into the right form for different functions. Once you have tidy data, a common first step is to transform it. Transformation includes narrowing in on observations of interest (like all people in one city, or all data from the last year), creating new variables that are functions of existing variables (like computing velocity from speed and time), and calculating a set of summary statistics (like counts or means). Together, tidying and transforming are called wrangling, because getting your data in a form that’s natural to work with often feels like a fight! Once you have tidy data with the variables you need, there are two main engines of knowledge generation: visualization and modeling.
These have complementary strengths and weaknesses so any real analysis will iterate between them many times.
Visualization is a fundamentally human activity. A good visualization will show you things that you did not expect, or raise new questions about the data. A good visualization might also hint that you’re asking the wrong question, or you need to collect different data. Visualizations can surprise you, but don’t scale particularly well because they require a human to interpret them. Models are complementary tools to visualization. Once you have made your questions sufficiently precise, you can use a model to answer them. Models are a fundamentally mathematical or computational tool, so they generally scale well. Even when they don’t, it’s usually cheaper to buy more computers than it is to buy more brains! But every model makes assumptions, and by its very nature a model cannot question its own assumptions. That means a model cannot fundamentally surprise you.
The last step of data science is communication, an absolutely critical part of any data analysis project. It doesn’t matter how well your models and visualization have led you to understand the data unless you can also communicate your results to others.

Surrounding all these tools is programming. Programming is a crosscutting tool that you use in every part of the project. You don’t need to be an expert programmer to be a data scientist, but learning more about programming pays off because becoming a better programmer allows you to automate common tasks, and solve new problems with greater ease.
You’ll use these tools in every data science project, but for most projects they’re not enough. There’s a rough 80-20 rule at play; you can tackle about 80% of every project using the tools that you’ll learn in this book, but you’ll need other tools to tackle the remaining 20%. Throughout this book we’ll point you to resources where you can learn more.

nasrin talkhi
nasrin talkhi

نسرین تلخی

دانشجوی دکتری آمار زیستی

مشاور آمار، دیتاساینتیست، علاقه مند به برنامه نویسی

برچسب ها: data Scientistsupervised learningunsupervised learningXGBoostآمارآمار زیستیآمار کاربردیآنالیز مقالهپایان نامهپایان نامه دکتریپایان نامه کارشناسی ارشدپایتونپروژهتجزیه و تحلیل دادهتحلیل پایان نامهداده کاویدرآمد دیتاساینتیستدکتریدیتا پالسرگرسیونرگرسیون چندگانهشبکه عصبیشرکت آماریعلم دادهفصل 4 پایان نامهکارشناسیکارشناسی ارشدکاوشگران اطلاعات نبض دادهمدل های خطیمهارت های دانشمند دادهمهارت های دیتاساینتیستمهارتهای تحلیل گر دادهمهندس دادهیادگیری با نظارتیادگیری بدون نظارتیادگیری عمیقیادگیری ماشین
درباره nasrin talkhi

نسرین تلخی دانشجوی دکتری آمار زیستی مشاور آمار، دیتاساینتیست، علاقه مند به برنامه نویسی

نوشته‌های بیشتر از nasrin talkhi
قبلی کتاب بسیار عالی ضروریات آمار پزشکی

دیدگاهتان را بنویسید لغو پاسخ

نوشته‌های تازه
  • کتاب حیرت انگیز R برای علم داده
  • کتاب بسیار عالی ضروریات آمار پزشکی
  • کتاب بسیار عالی در زمینه اپیدمیولوژی
  • برگزاری کارگاه آموزش نرم افزار AMOS
  • برگزاری کارگاه آموزش نرم افزار SPSS
دسته‌ها
  • اخبار
  • مطالب آموزشی
  • معرفی کتاب
  • نمونه کار
درباره دیتا پالس

دیتا پالس با تلاش و زحمات زیاد جهت آمادگی لازم با هدف ارائه خدمات با کیفیت و رفاه حال مشتریان عزیز، در افق 5 ساله آینده خود، چشم انداز زیر را برای سال 1405 ترسیم نموده است.

  • تهران و مشهد
  • 09304547064 – 09929446323
  • datapulse94@gmail.com
دسترسی سریع
  • صفحه اصلی
  • دوره ها
  • پرداخت
  • حساب کاربری
  • سبد خرید
  • صفحه اصلی
  • دوره ها
  • پرداخت
  • حساب کاربری
  • سبد خرید
Telegram Instagram Whatsapp

تمامی حقوق برای دیتا پالس محفوظ است .

طراحی و میزبانی سایت توسط رادیزاین

اشتراک گذاری در شبکه های اجتماعی
ارسال به ایمیل
https://datapulsestat.ir/?p=1657
مرورگر شما از HTML5 پشتیبانی نمی کند.