نقشه راه تبدیل شدن به یک دانشمند داده (Data Scientist)

اگر به دنیای هیجان انگیز علم داده و تبدیل شدن به دانشمند داده علاقه دارید، اما نمی دانید از کجا شروع کنید، آروین آکادمی اینجاست تا به شما کمک کند.
دانشمند داده بسیار مورد تقاضا است، و همه کارها را انجام می دهند، از ساخت ماشین های خودران گرفته تا نوشتن خودکار تصاویر.
به گفته دانشگاه هاروارد شغل دانشمند داده جذابترین شغل در قرن ۲۱ است. این شغل پر تقاضا میتواند تأثیر قابلتوجهی در موفقیت مالی، عملیاتی و استراتژیک شرکتها داشته باشد.
چرا تقاضا برای دانشمند داده وجود دارد؟
دادهها روز به روز با سرعت زیادی تولید میشوند و برای پردازش چنین مجموعههای دادهای عظیم، شرکتهای بزرگ به دنبال دانشمند داده ی خوب هستند
تا بینش دادههای ارزشمندی را از این مجموعههای داده استخراج کنند و از آنها برای استراتژی های مختلف کسب و کار، مدل هاو طرح ها استفاده کنند.
علم داده چیست؟
مشاغل علوم داده یکی از مشاغلی است که در حال حاضر در سرتاسر جهان بسیار جبران شده است. با توجه به کاربرد گسترده آن در هر صنعتی، تقاضای بیشتری برای دانشمندان داده وجود دارد که بتوانند داده های پیچیده را تجزیه و تحلیل کنند و نتایج را به طور مؤثری انتقال دهند.
علم داده، علم تجزیه و تحلیل داده های خام با استفاده از آمار و تکنیک های یادگیری ماشین
با هدف نتیجه گیری در مورد آن اطلاعات، و در نتیجه استفاده از آنها در حوزههای مختلف تجاری است.
بنابراین به طور خلاصه می توان گفت که علم داده شامل:
آمار، علوم کامپیوتر، ریاضیات
پاکسازی و قالب بندی داده ها
تجسم داده ها
امروزه برای همه شناخته شده است که Data Science چقدر محبوب است. اکنون سؤالاتی که مطرح می شود این است که چرا علم داده؟ چگونه شروع کنیم؟ از کجا شروع کنیم؟ چه موضوعاتی را باید پوشش داد؟ و غیره.
بنابراین در این مقاله قصد داریم همه این موارد را مورد بررسی قرار دهیم.
چرا علم داده؟ (اول هدف را تعیین کنید)
قبل از پرش به نقشه راه کامل علوم داده، باید یک هدف روشن در ذهن خود داشته باشید که چرا میخواهید علم داده را یاد بگیرد؟
آیا فقط برای اینکه “پرتقاضا ترین شغل قرن بیست و یکم” است؟ آیا برای پروژه های دانشگاهی شما است؟ یا برای شغل طولانی مدت شماست؟ یا می خواهید حرفه خود را به دنیای دانشمند داده تغییر دهید؟ پس ابتدا یک هدف مشخص داشته باشید. چرا می خواهید علم داده را یاد بگیرید؟ به عنوان مثال، اگر میخواهید برای پروژههای دانشگاهی خود علم داده را بیاموزید، کافی است فقط چیزهای مبتدی در علم داده را یاد بگیرید. به طور مشابه، اگر می خواهید حرفه بلندمدت خود را بسازید، باید چیزهای حرفه ای یا پیشرفته را نیز یاد بگیرید. شما باید تمام موارد پیش نیاز را با جزئیات پوشش دهید. بنابراین این در دست شماست و این تصمیم شماست که چرا می خواهید علم داده را یاد بگیرید.
چگونه علم داده را یاد بگیریم؟
معمولاً دانشمندان داده از سوابق تحصیلی و تجربه کاری مختلف می آیند، بیشتر آنها باید در چهار زمینه کلیدی مهارت داشته باشند، یا در حالت ایده آل، استاد باشند.
- دانش دامنه (Domain Knowledge)
- مهارت های ریاضی (Math Skills)
- علوم کامپیوتر (Computer Science)
- مهارت ارتباطی (Communication Skill)
دانش دامنه (Domain Knowledge)
اکثر مردم فکر می کنند که دانش دامنه در علم داده مهم نیست، اما بسیار مهم است. برای مثال: اگر میخواهید یک دانشمند داده در بخش بانکداری باشید و اطلاعات بیشتری در مورد بخش بانکی مانند معاملات سهام، اطلاعات مالی و غیره دارید، بنابراین این برای شما و مردم بسیار مفید خواهد بود. خود بانک بیشتر از یک متقاضی عادی به این نوع متقاضیان ارجحیت خواهد داد.
مهارت های ریاضی
جبر خطی، حساب دیفرانسیل و انتگرال چند متغیره و تکنیک بهینه سازی، این سه چیز بسیار مهم هستند زیرا به ما در درک الگوریتم های مختلف یادگیری ماشین که نقش مهمی در علم داده ایفا می کنند کمک می کنند. به طور مشابه، درک آمار بسیار مهم است زیرا این بخشی از تجزیه و تحلیل داده ها است. احتمال نیز برای آمار مهم است و پیش نیازی برای تسلط بر یادگیری ماشین در نظر گرفته می شود.
علوم کامپیوتر
در علوم کامپیوتر چیزهای بیشتری برای یادگیری وجود دارد. اما وقتی صحبت از زبان برنامه نویسی می شود یکی از سوالات مهمی که مطرح می شود این است:
پایتون یا R برای علم داده؟
دلایل مختلفی برای انتخاب این دو زبان برای Data Science وجود دارد زیرا هر دو مجموعه ای غنی از کتابخانه ها برای پیاده سازی الگوریتم پیچیده یادگیری ماشین، تجسم و پاکسازی داده ها دارند.
به غیر از زبان برنامه نویسی، سایر مهارت های علوم کامپیوتری که باید یاد بگیرید عبارتند از:
- مبانی ساختار داده و الگوریتم
- SQL
- MongoDB
- لینوکس
- Git
- یادگیری ماشین و یادگیری عمیق و …
مهارت ارتباطی
هم شامل ارتباط نوشتاری و هم کلامی است. آنچه در یک پروژه علم داده اتفاق می افتد این است که پس از نتیجه گیری از تجزیه و تحلیل، پروژه باید به دیگران منتقل شود. گاهی اوقات ممکن است این گزارشی باشد که برای رئیس یا تیم خود در محل کار ارسال می کنید. در مواقع دیگر ممکن است یک پست وبلاگ باشد. اغلب ممکن است ارائه به گروهی از همکاران باشد. صرف نظر از این، یک پروژه علم داده همیشه شامل نوعی ارتباط از یافته های پروژه است. بنابراین داشتن مهارت های ارتباطی برای تبدیل شدن به یک دانشمند داده ضروری است.
نقشه راه برای یادگیری و تبدیل به دانشمند داده
با مرور کلی علم داده شروع کنید. برخی از وبلاگ های مرتبط با علم داده را بخوانید و همچنین در مورد موارد مرتبط با علم داده تحقیق کنید.
به عنوان مثال وبلاگهایی را در زمینه مقدمه علم داده، چرایی انتخاب علم داده به عنوان شغل، صنایعی که بیشترین سود را از علم داده میبرند، 10 مهارت برتر علم داده برای یادگیری در سال2022، و غیره و غیره را بخوانید و ذهن خود را کامل کنید. برای شروع سفر خود در علم داده خود را برای یادگیری علم داده و ساختن چند پروژه عالی بر روی Data Science ایجاد انگیزه کنید. آن را به طور منظم انجام دهید و همچنین شروع به یادگیری یک به یک مفهوم جدید در علم داده کنید. خیلی بهتر است قبل از شروع سفر خود به برخی کارگاه ها یا کنفرانس ها در زمینه علم داده بپیوندید. هدف خود را روشن کنید و به سمت هدف خود حرکت کنید.
1) ریاضیات
مهارت ریاضی بسیار مهم است زیرا به ما در درک الگوریتم های مختلف یادگیری ماشین که نقش مهمی در علم داده ایفا می کنند کمک می کند.
قسمت 1:(مباحث ریاضایات)
جبر خطی
آمار و احتمال
ماتریس
حساب دیفرانسیل و انتگرال
بهينه سازي
قسمت 2:(مباحث برای یادگیری ماشین)
رگرسیون(Regression)
دسنه بندی(Classification)
خوشه بندی (Clustering)
دسنه بندی(Recommender Systems)
2) برنامه نویسی
باید درک خوبی از مفاهیم برنامه نویسی مانند ساختارهای داده و الگوریتم ها داشته باشید. زبان های برنامه نویسی مورد استفاده، پایتون، R، جاوا، اسکالا و
C++هستند.
پایتون(Python)
- مبانی پایتون
- مجموعه ها (Set)
- لیست ها (List)
- تاپل ها (Tuples)
- کار با دیکشنری ها (Dictionary)
- تابع ها (Function) و …
کار با کتابخانه های آن
- NumPy
- Pandas
- Matplotlib/Seaborn/scipy/sklearn و …
آر (R):
- مبانی آر
- بردارها (Vectors)
- لیست ها (List)
- چارچوب های داده (Data Frame)
- ماتریس ها (Matrix)
- آرایه ها (Array)
- توابع (Function) و …
کار با کتابخانه های آن
- dplyr
- ggplot2
- Tidyr و …
پایگاه داده:
- اس کیو ال (SQL)
- مانگو دیبی (MongoDB)
و دیگر مفاهیمی که در این راه باید بدانید:
- آشنایی با ساختمان داده (Data Structure)
- وب اسکرپینگ Web Scraping (Python | R)
- کار با سیستم عامل لینوکس (Linux)
- کار با گیت (Git)
3) یادگیری ماشین
ML یکی از حیاتی ترین بخش های علم داده و داغ ترین موضوع تحقیق در بین محققان است، بنابراین هر ساله پیشرفت های جدیدی در این زمینه ایجاد می شود. حداقل باید الگوریتم های اساسی یادگیری تحت نظارت و بدون نظارت را درک کنید. چندین کتابخانه در پایتون و R برای پیاده سازی این الگوریتم ها موجود است.
اگر میخواهید خیل مفصل تر راجب این مورد اطلاعات کسب کنید بهتون پیشنهاد میکنم مقاله
تفاوت بین هوش مصنوعی (AI) ، یادگیری ماشین(ML) و یادگیری عمیق(DL) را حتما مطالعه کنید.
4) یادگیری عمیق
Deep Learning از TensorFlow و Keras برای ساخت و آموزش شبکه های عصبی برای داده های ساختار یافته استفاده می شوند.
موضوعاتی که شما باید در این رمینه کسب کنید:
- شبکه های عصبی مصنوعی
- شبکه عصبی کانولوشنال
- شبکه عصبی مکرر
- TensorFlow
- کراس
- PyTorch
- یک نورون منفرد
- شبکه عصبی عمیق
- نزول گرادیان تصادفی
- Overfitting و Underfitting
- عادی سازی دسته حذفی
- طبقه بندی باینری
5) پردازش زبان طبیعی (NLP)
داده ها با سرعت نگران کننده ای در حال افزایش است. بخش بزرگی از داده های موجود امروزه به صورت متن است.
NLP مخفف عبارت Natural Language Processing است. این زیرشاخه یا شاخه ای از هوش مصنوعی (AI) است که به علم داده در استخراج بینش از داده های متنی کمک می کند
به عبارتی رایانه ها را قادر می سازد زبان های انسانی را بفهمند و آنها را به روشی ارزشمند پردازش کنند.
دانش NLP برای دانشمندان داده ضروری است، زیرا متن بسیار آسان برای استفاده و محفظه رایج برای ذخیره داده ها است.
بسیاری از زمینه ها مانند مراقبت های بهداشتی، مالی، رسانه ها، منابع انسانی و غیره از NLP برای استفاده از داده های موجود در قالب متن و گفتار استفاده می کنند. بسیاری از برنامه های تشخیص متن و گفتار با استفاده از NLP ساخته شده اند. به عنوان مثال، دستیارهای صوتی شخصی مانند سیری، کورتانا، الکسا و غیره.
6) ابزار تجسم داده ها
ابزار تجسم داده ها برنامه های نرم افزاری هستند که اطلاعات را در قالب تصویری مانند نمودار یا نقشه حرارتی برای اهداف تجزیه و تحلیل داده ها ارائه می کنند. چنین ابزارهایی درک و کار با حجم عظیمی از داده ها را آسان تر می کنند.
ابزار تجسم داده ها می تواند به طور قابل توجهی متفاوت باشد. آنها از نرم افزارهایی که بر سادگی و سهولت استفاده تأکید دارند، تا پلتفرم های پیچیده تر که به درجه بالاتری از مهارت های فنی و علوم داده نیاز دارند را شامل می شوند. با این حال، هدف نهایی اساساً در ابزارهای مختلف یکسان است: آسانتر کردن درک و عمل بر روی دادهها.
برای شروع باید با نمودارهای اولیه مانند هیستوگرام، نمودار پراکندگی، نمودار خطی، نمودار میله ای، نمودار جعبه و نقشه حرارتی آشنا باشید. اکسل یک ابزار عالی برای شروع با تجسم است و Tableau نیز همینطور است. شما به راحتی می توانید پارامترهای Tableau و کشیدن و رها کردن را برای مشاهده تجسم های مختلف تنظیم کنید.
ابزارهای تجسم داده برای کسب و کار
- Microsoft Excel
- Power BI
- Tableau
- Google charts و …
7) گیت هاب (Github)
اگر نام GitHub را شنیده اید، ممکن است به این فکر کنید که چرا باید یک سیستم مدیریت نسخه را در نقشه راه علم داده ذکر کنیم؟
GitHub هیچ ارتباط مستقیمی با علم داده ندارد، اما دانستن GitHub به شما کمک می کند تا کدهای بهتری را از طریق انجمن های مختلف بسازید و شما را به متخصصان این حوزه متصل می کند. این یک سرویس میزبانی مخزن است که مدیریت وظایف و نسخه اولیه را برای پروژه ها ارائه می دهد. از آنجایی که GitHub منبع باز است، جامعه عظیمی از میلیون ها برنامه نویس دارد که می توانند آثار یکدیگر را مشاهده و بررسی کنند.
8) پروژه های علم داده
اکنون که همه قطعات اصلی یادگیری را کنار هم قرار داده ایم، در مرحله بعدی نقشه راه علم داده، باید پروژه ها را یاد بگیریم و توسعه دهیم. پروژه های زیادی در حال حاضر از طریق دوره ها و آموزش ها در دسترس هستند، و شما باید به آنها نگاه کنید تا بفهمید چگونه کار می کنند. با این حال، پس از آن، سعی کنید پروژه خود را ایجاد کنید تا احساس واقعی علم داده را به دست آورید.
1. سیستم توصیه فیلم
این یک مورد استفاده بسیار محبوب از علم داده است. شما باید ویدیوهای YouTube، Netflix و غیره را تماشا کنید. وقتی مجموعه خاصی از ویدیوها را تماشا میکنید، دفعه بعد توصیههای مشابهی دریافت میکنید.
چگونه؟ این از طریق سیستم های توصیه فیلم است که بر اساس مقایسه ترجیحات کاربر با ترجیحات کاربرانی که علایق مشابهی دارند کار می کنند.
2. Chatbot
چت بات یک نرم افزار هوشمند مبتنی بر هوش مصنوعی است که برای حل مشکلات رایج به زبان طبیعی انسان با انسان تعامل دارد. آن ها می توانند ربات های مبتنی بر قانون یا خودآموز باشند. چت بات ها یکی از بهترین موارد استفاده هستند و امروزه بسیار محبوب هستند.
بنابراین، پروژه خوبی برای انجام آن خواهد بود.
3. Text Mining(متن کاوی)
متن کاوی فرآیندی است که در آن متن کاربران برای شناسایی احساسات یا سایر بینش های آنها تجزیه و تحلیل می شود. به عنوان مثال، اگر مشتری محصول خاصی را بررسی کند، از لحن متن و استفاده از کلمات خاص، متن کاوی می تواند احساس مشتری را در مورد محصول مشخص کند. در بسیاری از حوزه ها مانند تولید، خرده فروشی، مراقبت های بهداشتی، مخابرات و بیمه استفاده می شود.
9) پروژه خود را شروع کنید
هنگامی که به چند پروژه موجود دست یافتید، باید برخی از پروژه های خود را نیز امتحان کنید. می توانید مجموعه داده ها را از وب سایت های رایگان دانلود کنید و هر پروژه ای را که انتخاب کردید شروع به نوشتن آن کنید. انجمن های باز زیادی مانند GitHub و StackOverflow وجود دارد، بنابراین حتی اگر گیر کرده اید، می توانید از آنجا کمک زیادی دریافت کنید.
چند نمونه از پروژه های ساده ای که می توانید روی آنها کار کنید عبارتند از:
- الگوهای غذا خوردن افراد جامعه شما -به عنوان مثال، چند نفر ترجیح می دهند اغلب غذای بیرون را بخورند، و چه روزهایی هستند که بیشتر مردم غذای بیرون سفارش می دهند؟
- مردم از چه راه هایی خود را سالم نگه می دارند؟ – ورزش، باشگاه، یوگا و/یا رژیم غذایی؟ درصد افراد سالم در مقابل افراد ناسالم چقدر است؟
- COVID-19 چگونه انتخاب های سبک زندگی مردم را تغییر داده است؟
10) چالش ها و رقابت ها
شرکت در چالش ها و مسابقات آنلاین اعتماد به نفس شما را افزایش می دهد و به شما در ایجاد یک شبکه کمک می کند. شما می توانید از این چالش ها چیزهای زیادی یاد بگیرید.
برخی از وب سایت های محبوبی که میزبان چنین چالش هایی هستند عبارتند از:
11) به تمرین ادامه دهید
“تمرین انسان را کامل می کند” اهمیت تمرین مداوم در هر موضوعی برای یادگیری بسیار پر اهمیت و مفید است. پس به تمرین و افزایش دانش خود روز به روز ادامه دهید.
و تا زمانی که یک یا دو پروژه را انجام ندهید، هرگز از مشکلات «واقعی» که دانشمندان داده با آن مواجه هستند، نخواهید فهمید. حتی پس از داشتن تمام مهارت های اساسی، تجاری و ارائه، ممکن است هر روز با چالش های ناشناخته ای روبرو شوید.
امیدوارم این نقشه راه مطالعه علم داده الهام بخش شما برای تغییر شغلی باشد یا در نهایت جهشی داشته باشید و شروع به یادگیری علم داده و تبدیل شدن به دانشمند داده کنید.
مهمترین بخش علم داده پاکسازی داده های خام است، بنابراین باید تا حد امکان آن را تمرین کنید.
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.