data science

ডেটা সাইন্স 

ডেটা নিয়ে কাজ করাই ডেটা সাইন্স এর কাজ। বিগ ডেটা এখন খুব জনপ্রিয় একটা টার্ম। যেখানে ডেটা অনেক বেশি, অনেক অনেক বেশি, সেগুলোকেই বিগ ডেটা বলে। আর ডেটা এনালাইসিস যারা করে, তাদেরকে বলে ডেটা সাইন্টিস্ট।

আমার পারসোনাল একটা সাইট আছে, যেমন আমার টেক ডায়েরী। এখানে মাত্র অল্প কিছু ডেটা আছে, তাই আমার টেক ডায়েরীর ডেটাবেজ বিগ ডেটার মধ্যে পড়ে না। কিন্তু ফেসবুক, গুগল, অ্যামাজন এমন সব সাইটের ডেটাবেজে অনেক অনেক ডেটা থাকে। এক একটা ইউজারেরই অনেক ডেটা। এবার সব ইউজারের ডেটার কথা চিন্তা করলে বুঝা যায় কত বড় ডেটাবেজ। এমন বড় বড় ডেটা বেজের ডেটাকেই বিগ ডেটা বলে।

অল্প কিছু ডেটা থেকে কোন তথ্য বের করা সহজ। কিন্তু অনেক বেশি ডেটা থেকে কোন কিছু প্রিডিক্ট করা অনেক কঠিন। যেমন ফেসবুকের একটা সার্ভে হচ্ছে এমন, যে বাংলাদেশের মানুষ কখন সবচেয়ে বেশি ফেসবুক ব্যবহার করে। এ তথ্য খুব একটা সহজে বের করা যাবে না। তার জন্য কিছু এনালাইসিস করার দরকার হবে। প্রথমে ফেসবুকে মূল ডেটাবেজ থেকে বাংলাদেশের ব্যবহারকারীদের তথ্য গুলো আলাদা করতে হবে। তারপর ঐ তথ্য গুলো এনালাইসিস করে বের করতে হবে কখন বাংলাদেশের মানুষ সবচেয়ে বেশি ফেসবুক ব্যবহার করে। আর এমন সব কাজ করাই হচ্ছে ডেটা সাইন্স এর কাজ।

এখন হয়তো বলতে পারেন ফেসবুকে কখন সবচেয়ে বেশি মানুষ থাকে, এটা জেনে কি হবে, তাই না? এখনকার বেশির ভাগ ব্যবসায়ই হচ্ছে ভার্চুয়াল। যেহেতু প্রায় মানুষই ফেসবুক ব্যবহার করে, তাই ফেসবুকে যদি একটা এড ক্যাম্পেইন করা হয়, তাহলে একটা প্রোডাক্ট সম্পর্কে মানুষকে সহজেই জানানো যাবে। আর এ জন্য কখন মানুষ সবচেয়ে বেশি থাকে ফেসবুকে, তা জানা দরকার। তাহলে নিজের এড ক্যাম্পেইন অনেক বেশি সফল হবে।

এটা গেলো শুধু মাত্র একটা উদাহরণ। ডেটা এনালাইসিস বলা যায় সব ছোট বড় কোম্পানিরই লাগে। আর ডেটা রিডিং এবং রাইটিং সহজলভ্য হওয়াতে অনেক অনেক ডেটা জমা হচ্ছে। এতে সুবিধে হচ্ছে একটা প্রতিষ্ঠান খুব প্রিসাইস প্রিডিক্ট করতে পারে। আগের ডেটা এনালাইসিস করে যদি বলা হয় এ প্রতিষ্ঠানটি এ মাসে এ কাজটি করলে খুব বেশি লাভবান হবে, তাহলে সত্যি সত্যি তাই হবে। আর এ জন্য বর্তমানে প্রায় প্রতিষ্ঠানে ডেটা সাইন্টিস্টদের অনেক চাহিদা। ডেটা সাইন্স এখন বলা যায় হট কেক!

ডেটা সাইন্টিস্ট হওয়ার জন্য দুইটা বিষয় সম্পর্কে ভাল ধারণা থাকতে হয়। একটা হচ্ছে গণিত, আরেকটা হচ্ছে স্ট্যাটিস্টিক্স বা পরিসংখ্যান। এমন না যে আপনাকে এ দুইটা বিষয় এক্সপার্ট হতে হবে ডেটা এনালাইসিস করার জন্য, মোটামুটি ধারণা থাকলেই হবে।

ডেটা গুলো বিভিন্ন ফরমেটে থাকে। কিছু ডেটা থাকে txt ফাইলে, কিছু থাকে csv ফাইলে, কিছু থাকে SQL ফরমেটে, কিছু html বা ওয়েব পেইজ আকারে ইত্যাদি। তো এসব ফরমেট সম্পর্কেও ধারণা থাকা দরকার। রিলেশনাল ডেটাবেজ বা ডেটাবেজ কোয়েরি নিয়ে ধারণা থাকলে প্লাস পয়েন্ট।

ডেটা সাইন্টিস্ট হওয়ার জন্য আপনাকে প্রোগ্রামিং এ খুব বেশি দক্ষ হতে হবে না। শুধু প্রোগ্রামিং সম্পর্কে ধারণা থাকলেই হবে। এরপর দরকারি বিষয় গুলো আস্তে আস্তে এ বিষয়ের উপর কাজ করতে করতেই শেখা হয়ে যাবে।

স্টক এক্সেঞ্জ খুবি দারুণ একটা জায়গা। কেউ যদি খুব দ্রুত বিলিওনিয়ার হতে চায়, তার সহজ রাস্তা হচ্ছে স্টক এক্সেঞ্জ প্রিডিক্ট করা। আর তা করা সম্ভব ডেটা এনালাইসিস করে। এটা শুধু একটা জায়গা। উদাহরণটি দিয়েছি ডেটা নিয়ে কি রকম কাজ করা যায়, তা জানানোর জন্য। ডেটাই সব কিছু। যে ডেটা যত দ্রুত বুঝতে পারবে, সে তত ভালো করতে পারবে।

ডেটা এনালাইসিস করার জন্য জনপ্রিয় প্রোগ্রামিং ল্যাঙ্গুয়েজ হচ্ছে R Language.  । MATLAB ব্যবহার করে ডেটা এনালাইসিস করা যায়। এছাড়া পাইথনের বিভিন্ন প্যাকেজ রয়েছে। দুইটা জনপ্রিয় প্যাকেজ হচ্ছে NumPy এবং Pandas. এ দুইটা প্যাকেজ ব্যবহার করে সহজেই ডেটা নিয়ে কাজ করা যায়। পাইথন নিয়ে আমি বেশ কিছু লেখা লিখেছি। সেগুলো পাওয়া যাবে পাইথন মেনুতে। এখন মাঝে মাঝে NumPy এবং Pandas নিয়ে লেখার চেষ্টা করব। লেখা হলে এখানে যুক্ত করে দিব। নিচে NumPy এবং Pandas কিভাবে ইন্সটল এবং ব্যবহার করতে হয়, তা নিয়ে লেখা রয়েছে।

 

ডেটা সাইন্সে আগ্রহী হলে গুগলে একটু সার্চ দিলেই অনেক দারুণ সব কোর্স পাওয়া যাবে। নিচে কয়েকটি লিঙ্ক যুক্ত করলামঃ

 


3 thoughts on “ডেটা সাইন্স 

  1. খুব সম্ভবত বাংলা ভাষায় ড্যাটা সাইন্স নিয়ে এটাই প্রথম কোনও রিসোর্স!
    সহজ ভাষায় বুঝানোর জন্য অনেক ধন্যবাদ আপনাকে জাকির ভাই

Leave a Reply

Your email address will not be published. Required fields are marked *