লিনিয়ার রিগ্রেশন : সহজ উদাহরণ ও কোড

Arefin Anwar

মেশিন লার্নিংয়ে “লিনিয়ার রিগ্রেশন” ও “লজিস্টিক রিগ্রেশন” খুবই গুরুত্বপূর্ণ এবং সহজবোধ্য অ্যালগরিদম। এগুলো বাস্তব জীবনের সমস্যাগুলি সমাধানে ব্যবহৃত হয়। শুরুতেই আমরা কিছু সহজ শব্দের অর্থ বুঝে নিই,

গুরুত্বপূর্ণ শব্দের অর্থ
  1. ফিচার (Feature): ডেটার এমন বৈশিষ্ট্য যা দিয়ে আপনি কিছু নির্ধারণ করতে চান। যেমন, বৃষ্টির পূর্বাভাস দিতে মেঘের ঘনত্ব একটি ফিচার।
  2. লেবেল (Label): আপনি যা পূর্বাভাস দিতে চান। যেমন, বৃষ্টি হবে কি না।
  3. রিগ্রেশন (Regression): একটি পদ্ধতি যা ধারাবাহিক (Continuous) মান নির্ধারণ করে।
  4. ক্লাসিফিকেশন (Classification): একটি পদ্ধতি যা শ্রেণি (Class) নির্ধারণ করে।
  5. ডেটাসেট (Dataset): ডেটার একটি সংগ্রহ, যেখানে ফিচার এবং লেবেল থাকে।
  6. হাইপোথেসিস (Hypothesis): একটি গাণিতিক ফাংশন যা প্রেডিক্ট করে।

লিনিয়ার রিগ্রেশন মডেলে মুলত একটি দ্বিমাত্রিক স্থানাঙ্কে ডেটার কাছাকাছি একটি সরলরেখা কল্পনা।

যেমন, উপরের চিত্রে সেলারি ও এক্সপেরিয়েন্স এর মধ্যে সম্পরক দেখানো হল। এখানে সহজে সেলারি বনাম এক্সপেরিয়েন্স  এর গ্রাফ আকা যায়। খেয়াল করে দেখবে যে এখানে ডেটা পয়েন্ট (সবুজ) গুলোর মধ্য দিয়ে একটি সরলরেখা আকা যায়। এই সরলরেখা এর নিশ্চয় একটা সমীকরণ আছে। এই সমীকরণে যখন এক্সপেরিয়েন্স দেওয়া হবে তখন সেই সমীকরণ থেকে ১ টি মান পাওয়া যাবে যা হল সেলারি। এভাবে সহজে সরলরেখার সমীকরণ ব্যাবহার করে এক্সপেরিয়েন্স  এর জন্য সেলারি বের করতে পারবে আমাদের মডেল। এখানে শুধু ১০ বছর পর্যন্ত এক্সপেরিয়েন্স দেওয়া আছে, কিন্তু এই মডেল যেহেতু সমীকরণ পেয়ে গিয়েছে তাই এখানে তুমি ২০ বছর এক্সপেরিয়েন্স  দিলেও মডেল তোমাকে সেলারি দেখাবে! কিন্তু তুমি তো তোমার ডাটাতে তা দাও নি! তারপর তো মডেল তোমাকে আনসার দিবে! এটাই মেশিন লার্নিং! কখনই তুমি সব ডাটা জানবে না, কিন্তু মডেল সীমিত ডাটা থেকে প্যাটার্ন খুজে, তা থেকে তোমার প্রশ্নের উত্তর দিতে পারবে! প্যাটার্ন খুজে বের করাই মেশিন লার্নিং! প্রকৃতি তে অনেক প্যাটার্ন আছে কিন্তু, মানুষের পক্ষে তা মনে রাখা সম্ভভ না! বরং মানুষ কম্পিউটারকে  প্যাটার্ন খুজা সিখিয়ে দিয়েছে, যার জন্য বর্তমান সময়ে এআই মানুষের মতো অনেক কিছু চিন্তা করতে পারে ও উত্তর দিতে পারে। 

এখন মনে প্রশ্ন জাগতেই পারে, মডেল কি সর্বদা ঠিক? উত্তর হচ্ছে না! না! না!। কোন মডেলই ১০০% সঠিক না। কিছু না কিছু ভুল সে করবেই কিন্তু মডেল ৯৮-৯৯% সঠিক হতে পারে! সবসময় ঠিক না হলেও বেশিরভাগ সময়ে মডেল সঠিক বা কাছাকাছি উত্তর দিতে পারে। যেমন আমরা এখনই যে উদাহরন দিলাম, সেলারি ও এক্সপেরিয়েন্স এর সেখানেও তো লাইন টি সব ডাটা পয়েন্ট দিত্যে যাইনি, বরং কাছ দিয়ে গিয়েছে। এই মডেল টির একুরেসি ৯৫% ধরা যাক, যেহেতু, এক্সপেরিয়েন্স বারলে, সেলারিও বারবে (যদিও এটির অবশ্যই বাতিক্রম রয়েছে)। অরথাক্ত,  লিনিয়ার রিগ্রেশন মডেলে প্রদত্ত ডাটার উপর ভিক্তি করে একটি সরলরেখা কল্পনা করা হয়, যা হতে প্রদত্ত ডাটার বাইরেও ডাটা হতে আনসার প্রেডিক্ট করা যায়। এই লাইনটি যে আঁকে তাকেই লিনিয়ার রিগ্রেশন মডেল বলে। 

এখন আরও প্রশ্ন আসতে পারে যে, লাইন টি কিভাবে ডাটা পয়েন্ট এর কাছে আকা হল? কিভাবেই বা লাইনটি ৯৫% একুরেসি আনল। উত্তর জানতে হলে আরেকটি বিষয় জানতে হবে। সেটি হচ্ছে কোস্ট ফাংশান। কোস্ট ফাংশান হচ্ছে মডেল কত ভাল রেজাল্ট দিছে তার পরিমাপক। কোস্ট ফাংশান যত কম হবে একুরেসি তত বারবে। এখন, কোস্ট ফাংশান নির্ধারিত হয় সঠিক উত্তর দেয়ার পার্সেন্টেজ এর উপর, যদি ১০ টা প্রশ্নের মধ্যে ৭ টা ঠিক করে মডেল তাহলে কোস্ট ফাংশান এর মান কম আসবে, যদি 3 টা ঠিক হয় তাহলে কোস্ট ফাংশন এর মান বেশি আসবে। মূলত কোস্ট ফাংশন হলো একটি গাণিতিক পদ্ধতি যা মডেলের প্রেডিকশন এবং আসল মানের মধ্যকার পার্থক্য মাপার জন্য ব্যবহৃত হয়। লিনিয়ার রিগ্রেশনে সবচেয়ে প্রচলিত কোস্ট ফাংশন হলো Mean Squared Error (MSE)। এটি প্রতিটি ডেটা পয়েন্টে প্রেডিকশনের ভুল (Error) বের করে, স্কোয়ার করে, এবং সবগুলোর গড় নির্ণয় করে।

এভাবে বিভিন্ন রেখার সমীকরণ বের করে মডেল ডাটা বশিয়ে দেখে কোনটিতে এরর সবচেয়ে কম আসে এবং সেই সমীকরণটাই সিলেক্ট করে।

উদাহরন হিসবে এটি, 

y=mx+c

m: রেখার ঢাল (slope), যা দেখায় এক্স এর প্রতি একক পরিবর্তনে y কতটা পরিবর্তিত হয়।

c: রেখার y-intercept, যা x=0x = 0x=0 অবস্থায় yyy এর মান নির্ধারণ করে।

x: ইনপুট ফিচার বা স্বাধীন চলক।

y: নির্ধারিত মান বা পূর্বাভাস।

রেখাটি ডেটার বিন্দুগুলির মধ্যে দিয়ে এমনভাবে যায় যাতে বিন্দুগুলি থেকে রেখার দূরত্বের গড় বর্গমূল (Mean Squared Error বা MSE) সর্বনিম্ন হয়।

[MSE: এই মেট্রিক দিয়ে বুঝি মডেল কতটা ভালো। যত কম তত বেশি একুরেসি ]

কেন MSE গুরুত্বপূর্ণ? MSE আমাদের জানায় পূর্বাভাসের মান বাস্তব ডেটার সাথে কতটা মিলছে। লক্ষ্য হল এমন একটি রেখা ফিট করা যাতে MSE সর্বনিম্ন হয়।

লিনিয়ার রিগ্রেশন: বাস্তব উদাহরণ

লিনিয়ার রিগ্রেশন একটি এমন পদ্ধতি যা ধারাবাহিক মান নির্ধারণে ব্যবহার হয়। উদাহরণস্বরূপ:

উদাহরণ ১: বাড়ি বিক্রির দাম নির্ধারণ

একটি বাড়ির আকার (স্কয়ার ফিট) দেখে তার দাম নির্ধারণ করতে চাই।

গল্প: রিয়েল এস্টেট এজেন্ট সোহেল জানেন বাড়ির আকার যত বড়, দাম তত বেশি। তিনি ডেটা সংগ্রহ করলেন:
বাড়ির আকার (স্কয়ার ফিট)দাম (লক্ষ টাকা)
১২০০৫০
১৫০০৬০
১৮০০৭০
২০০০৮০

কোড:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
# ডেটা
X = np.array([1200, 1500, 1800, 2000]).reshape(-1, 1)
y = np.array([50, 60, 70, 80])
# মডেল 
model = LinearRegression()
model.fit(X, y)
size = 1700
predicted_price = model.predict([[size]])[0]
print(f"১৭০০ স্কয়ার ফিট বাড়ির দাম হবে: {predicted_price:.2f} লক্ষ টাকা।")
# গ্রাফ
plt.scatter(X, y, color='blue', label='ডেটা পয়েন্ট')
plt.plot(X, model.predict(X), color='red', label='রিগ্রেশন লাইন')
plt.xlabel('বাড়ির আকার (স্কয়ার ফিট)')
plt.ylabel('দাম (লক্ষ টাকা)')
plt.legend()
plt.show()

17 thoughts on “লিনিয়ার রিগ্রেশন : সহজ উদাহরণ ও কোড”

  1. Interesting read! The focus on creating a welcoming, playful environment – like Sugal777 describes – really resonates. A safe space is key for enjoying games. Check out sugal777 com for a fun, accessible experience – easy registration too! It’s all about responsible enjoyment, right?

  2. Smart betting involves understanding risk, and transparency is key. Seeing platforms like AH88 PH embrace blockchain for fair play is interesting. Considering a secure, verified account-check out ah88 ph download apk-could be a smart move for anyone exploring online gaming in the Philippines.

  3. Yo, just checked out Xibetvn and gotta say, it’s got a decent vibe. Not gonna lie, registration was smooth, and the games are alright. Worth a look if you’re bored. Check it out here: xibetvn

  4. 30win05, eh? Used it a few times. It’s a pretty no-frills kinda place. Honestly, the navigation could be better, but hey, sometimes simple is good! Give it a look: 30win05.

  5. Slot games are fun, but understanding the odds is key! Platforms like 365jl app emphasize transparency, which is great for responsible play. KYC verification seems important for security too! 🤔

  6. Alright guys, I gotta say, sv3888app is where it’s at for some serious cockfighting action. The app’s smooth, easy to navigate, and the odds are pretty sweet. Definitely worth checking out if you’re into this kinda thing. Check them out here: sv3888app

  7. Tried out NO789BET the other day. Gotta say, the site loaded up quick, and I found a few games that piqued my interest. Depositing funds was pretty easy too. Give ’em a look! More here: no789bet

  8. Just browsing around and saw e2bet89. Seems like another decent online betting option. The bonuses are pretty tempting! Worth a look, I think. Learn more at e2bet89.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top