সাধারণভাবে গড় হলো এক রাশি সংখ্যার প্রতিনিধিস্থানীয় একটি মান। যেমন একটি বাসায় যদি পাঁচ জন মানুষ থাকে এবং তাদের বয়স যদি ১২, ১৬, ১৮, ৩৪ এবং ৩৮ হয় তবে তাদের "গড় বয়স" কত সে প্রশ্নটি প্রাসঙ্গিক। এখানে ১২, ১৬, ১৮, ৩৪, ৩৮ একটি রাশি, প্রতিটি সংখ্যা একটি উপাত্ত এবং "গড় বয়স" একটি পরিসংখ্যান। গণিতে কোনো উপাত্তের "গড়" বা "কেন্দ্রপ্রবণতা" বলতে সেই উপাত্তের "প্রতিনিধিস্থানীয়" বা "মাঝামাঝি মান" বোঝায়।[১] পরিসংখ্যানে গড় বা কেন্দ্রীয় প্রবণতা পরিমাপের বিভিন্ন পদ্ধতি রয়েছে যেমন, গাণিতিক গড়, মধ্যক এবং প্রচুরক। অন্যান্য পরিসংখ্যানিক পরিমাপ যেমন স্টান্ডার্ড ডেভিয়েশন (পরিমিত গণক) এবং রেঞ্জ (বিস্তার) এদেরকে ব্যাপ্তির পরিমাপ বলা হয়। এদের দ্বারা উপাত্তের ব্যপ্তি বা এর মানসমূহ কতটুকু ছড়িয়ে আছে বোঝা যায়।
গড় হচ্ছে কোনো একটা সংখ্যা তালিকা বা রাশির সকল মানকে প্রতিনিধিত্বকারী একটি একক মান। কোনো তালিকার সব সংখ্যার মান যদি সমান হয় তাহলে সেই সংখ্যাটিই সেই তালিকার প্রতিনিধিত্বকারী মান। যদি সমান না হয়, তাহলে প্রতিনিধিত্বকারী মান হিসেবে সেই তালিকা থেকে দৈবচয়ন পদ্ধতিতে কোনো একটা সংখ্যাকে বাছাই করা যেতে পারে। যদিও ‘গড়’ বলতে নির্দিষ্ট ভাবে দৈবচয়নের চেয়ে ভালো কোনো গাণিতিক উপায়ে বাছাই করা এবং ব্যবহারীক ক্ষেত্রে কার্যকর সংখ্যাকেই বোঝায়। সে ক্ষেত্রে, তালিকার সব সংখ্যাকে নির্দিষ্ট কোনো গাণিতিক উপায়ে মিলিয়ে একটি গড় মান নির্ণয় করা হয়।
গড় নির্ণয়ের সবচেয়ে প্রচলিত পদ্ধতি হচ্ছে গাণিতিক গড়। এ ছাড়াও কেন্দ্রপ্রবণতা পরিমাপের আরও অনেক পদ্ধতি আছে। যেমন, একটি হচ্ছে মধ্যক বা মেডিয়ান। ঘর-বাড়ির দাম বা মানুষের আয়ের উপাত্তে গাণিতিক গড়ের বদলে মধ্যক ব্যবহৃত হয়। কারণ এধরনের উপাত্তে মানগুলোর বিস্তার সুষম থাকে না, বা কোনো একদিকে অল্প কিছু বৃহৎ মানের সংখ্যা থাকে।[২]
n টি সংখ্যার গাণিতিক গড় বলতে সংখ্যাগুলোর যোগফল কে n দিয়ে ভাগ করে প্রাপ্ত ভাগফল কে বোঝায়। যদি প্রতিটি সংখ্যাকে ai দিয়ে প্রকাশ করা হয় যেখানে i = 1, ..., n তাহলে এদের গাণিতিক গড় হবে এদের যোগফল ভাগ n বা,
যেমন দুইটি সংখ্যা 8 ও 2 এর গাণিতিক গড় A হচ্ছে এমন একটি সংখ্যা যেন, 8+2=A+A। এখান থেকে দেখা যায় A = (8+2)/2 = 5। 2 ও 8 এর ক্রম পরিবর্তন করলেও A এর এই মানের কোনো পরিবর্তন হয় না। গড় মান 5 ক্ষুদ্রতম সংখ্যা 2 এর চেয়ে ছোটোও না আবার বৃহত্তম সংখ্যা 8 এর চেয়ে বড়ও না। আমরা যদি দুই এর অধিক সংখ্যা নিয়েও গড় বের করি যেমন ২,৮ ও ১১ এর জন্যেও ২+৮+১১=A+A+A সমীকরণ থেকে পাবো A = (2+8+11)/3 = 7।
সংখ্যাত্রয়ের ক্রম পরিবর্তন করেও এই গড় মানের কোনো পরিবর্তন হয় না। অর্থাৎ = (2+11+8)/3 = 7 ই থাকে। যেখানে ৭ এই তালিকার ক্ষুদ্রতম সংখ্যা ২ ও বৃহত্তম সংখ্যা ১১ এর মধ্যবর্তী একটি সংখ্যা। এই যোগফল পদ্ধতিকে সহজেই যেকোনো সংখ্যক উপাদান বিশিষ্ট সংখ্যাতালিকার গড় নির্ণয়ে সাধারণীকরণ করা যেতে পারে। এখানে উল্লেখ্য যে কয়েকটি পূর্ণ সংখ্যার গড় একটি পূর্ণসংখ্যা নাও হতে পারে। তাই “গড়ে প্রতিটি পরিবারে 1.7 টি সন্তান রয়েছে” শুনলে অবাক হবার কিছু নেই। অবশ্য এভাবে না বলে, “পরিবার সমূহের তালিকা থেকে দেখা যায় তাদের গড় সন্তান সংখ্যা 1.7” এভাবে বললে তথ্যটি আরও ভালো ভাবে প্রকাশ করা( উপাত্তটি প্রকৃষ্ট রূপে উপস্থাপিত) হয়।
n সংখ্যক সংখ্যার জ্যামিতিক গড় নির্ণয় করতে প্রথমে সবগুলো সংখ্যার সম্মিলিত গুনফল বের করা হয়, এর পরে সেই গুনফলের n তম বর্গমূল নেওয়া হয়। বীজগাণিতিক ভাবে a1, a2, ..., an এর জ্যামিতিক গড় হচ্ছে,
জ্যামিতিক গড়কে সংখ্যাসমূহের লগ মানের গাণিতিক গড়ের এন্টিলগ হিসেবেও ভাবা যেতে পারে।
উদাহরণ: 2 ও 8 এর জ্যামিতিক গড় হচ্ছে,
কয়েকটি সংখ্যা a1, a2, ..., an এর হারমনিক গড় বলতে এদের বিপরীত সংখ্যা সমূহের গাণিতিক গড়ের বিপরীতকে বোঝায়। সেজন্য এই গড়কে অনেকে উল্টন গড় বলে অভিহিত করেন। অর্থাৎ,
উদাহরণ হিসাবে গড় বেগ নির্ণয়ে এই গড়ের ব্যবহার হতে পারে। যেমন, ক থেকে খ অবস্থানে যাবার গতি যদি ৬০ কিমি/ঘণ্টা হয় এবং খ থেকে ক তে ফেরার গতি যদি হয় ৪০ কিমি/ঘণ্টা তাহলে এই পুরো যাত্রার গড় দ্রুতি হবে,
গাণিতিক, জ্যামিতিক ও হারমনিক গড়ের মধ্যকার অসমতার সম্পর্কটি হচ্ছে,
এই অসমতাটি মনে রাখার সহজ উপায় হচ্ছে ইংরেজি বর্ণমালায় A, G, এর H বর্ণক্রম মনে রাখা।
কোনো সংখ্যাতালিকায় সবচেয়ে বেশিবার যে সংখ্যার উপস্তিতি দেখা যায় তাকে বলে সেই তালিকার প্রচুরক। যেমন (1, 2, 2, 3, 3, 3, 4) এই তালিকার প্রচুরক হচ্ছে 3। কোনো সংখ্যা তালিকার প্রচুরক সুনির্ধারিত নাও হতে পারে। যেমন (1, 2, 2, 3, 3, 5) এই তালিকার প্রচুরক দুইটি 2 ও 3। কোনো উপাত্তের হিসাবে যদি প্রতিনিধিত্বকারী গড় কে এমন ভাবে সংজ্ঞায়িত করা হয় যে তালিকার সব চেয়ে বেশিবার পুনঃরাবৃত্ত সংখ্যাটিই গড় তাহলে সেই গড়ই হছে প্রচুরক। প্রচুরকের ধারণা ব্যবহারিক ভাবে কার্যকর হয় যখন তালিকায় প্রচুর সংখ্যক উপাত্ত থাকে এবং উপাত্তের মানগুলোর পরিবর্তণ মসৃণ হয়। (যেমন ১০০০ জন ব্যক্তির মধ্যে যদি ৩০ জনের ভর ৬১ কেজি, ৩১ জনের ৬২ কেজি, এবং ২৯ জনের ৬৩ কেজি হয় এবং সম্ভাব্য অন্যান্য ভরসমূহ এর চেয়ে কম সংখ্যক ভার পুনরাবৃত্ত হয় তাহলে ৬২ হবে এই উপাত্তের প্রচুরক)।
প্রচুরকের একটি সুবিধা হলো সংখ্যাবিহীন তথ্য-উপাত্তেরও প্রচুরক হিসাব করা যেতে পারে যেখানে অন্যান্য গড় এর ধারণা অচল।(যেমন- লাল গাড়ি বেশি দেখা যায়)।
মধ্যক হচ্ছে সংখ্যাতালিকার সব সংখ্যাকে মানের ক্রমানুসারে সাজানোর পরে প্রাপ্ত মধ্যবর্তী সংখ্যা। (জোড় সংখ্যক উপাত্তের ক্ষেত্রে মধ্যবর্তী দুইটি সংখ্যার গাণিতিক গড় নেওয়া হয়।)
তাই কোনো সংখ্যা তালিকার মধ্যক বের করার জন্য প্রথমে তালিকাটিকে সংখ্যার মানের ক্রমানুসারে সজিয়ে ক্রমাগত ভাবে প্রথম(বৃহত্তর) ও শেষ(ক্ষুদ্রতম) এই দুইটি সংখ্যা সরিয়ে ফেলতে হবে। এভাবে সরাতে সরাতে যদি কখনো একটি মাত্র সংখ্যা বাকি থাকে তাহলে সেটাই মধ্যক। যদি দুইটি বাকি থাকে তাহলে তাদের গাণিতিক গড়ই হচ্ছে মধ্যক। যেমন, এই পদ্ধতিতে মধ্যক বের করার জন্য প্রথমে ১, ৭, ৩ ও ১৩ এই তালিকা কে ক্রমানুসারে সাজিয়ে ১, ৩, ৭, ১৩ এভাবে লেখা হয়। এর পর ১ ও ১৩ কে সরিয়ে ফেলা হয়। এতে ৩ ও ৭ বাকি থাকে। যেহেতু দুইটি সংখ্যা বাকি আছে সেহেতু এদের গাণিতিক গড় (৩+৭)/২ = ৫ ই হচ্ছে এই তালিকার মধ্যক।
গড় শতাংশ ফেরত আর্থিক হিসাবে বহুল ব্যবহৃত একটি গড়। এটা একধরনের জ্যামিতিক গড়। যেমন, যদি দুই বছর সময়কালের জন্য আমরা হিসাব করি এবং কোনো ব্যবসার বিনিয়োগ ফেরত প্রথম বছরে -১০% এবং দ্বিতীয় বছরে +৬০% হয় তাহলে গড় শতাংশ ফেরত R পাওয়া যাবে এই সমীকরণের সমাধান থেকে: (1 − 10%) × (1 + 60%) = (1 − 0.1) × (1 + 0.6) = (1 + R) × (1 + R). R এর যে মান এই সমীকরণকে সিদ্ধ করে তা হচ্ছে, ০.২ বা ২০%। এখানে লক্ষ্যণীয় যে সংখ্যাগুলোর ক্রম পরিবর্তণ করলেও এই গড়ের মান একই থাকে। অর্থাৎ -১০% ও +৬০% এর গড় শতাংশ ফেরত এবং +৬০% ও -১০% এর গড় শতাংশ ফেরত একই।
সবগুলো পর্যায়কাল এক বছর না হলেও এই পদ্ধতি প্রয়োগ করা যেতে পারে। এক সেট ফেরতের গড় শতাংশ আসলে জ্যামিতিক গড়ের একটি প্রকারভেদ। যেখান থেকে ফেরতের একটি তালিকা থেকে কোনো সম্পত্তির বাৎসরিক শতাংশ ফেরত নির্ণয় করা যায়। ধরাযাক, কোনো এক অর্ধবৎসরের ফেরত -২৩% এবং এর পরের আড়াই বছরের ফেরত +১৩%। এদের সম্মিলিত গড় শতাংশ ফেরত R হচ্ছে একটি গড় বাৎসরিক ফেরত যেখানে, (1 − 0.23)0.5 × (1 + 0.13)2.5 = (1 + R)0.5+2.5 এই সমীকরণ থেকে প্রাপ্ত R এর মান ০.০৬ বা ৬.০০%।
নাম | সমীকরন ও বিবরণ |
---|---|
গাণিতিক গড় | |
মধ্যক | এটা হচ্ছে সেই মধ্যম মান যা উপাত্তসমূহের উচ্চতর মান ও নিম্নতর মানসমূহের মাঝা মাঝি অবস্থান করে। |
জ্যামিতিক মধ্যক | Rn স্পেসের বিন্দু সমূহের মধ্যকের ঘূর্ণন অভেদ। |
প্রচুরক | কোনো তালিকায় সবচেয়ে বেশীবার পুনরাবৃত্ত হওয়া সংখ্যা |
গুণোত্তর গড় | |
হারমনিক গড় | |
বর্গমূল গড় বর্গ (বা আর,এম,এস) |
|
সাধারণ গড় | |
ভরসহ গড় | |
কর্তিত গড় | কোনো উপাত্ততালিকার উচ্চতর এবং নিম্নতর কিছুসংখ্যক মান বাদ দেওয়ার পরে যে গাণিতিক গড় নির্ণয় করা হয় |
কর্তিতচতুষ্টির গড় | কর্তিত গড়ের একটা বিশেষ প্রকার যেখানে সংখ্যাগুলিকে ক্রমানুসারে সাজানোরপরে সমান চতুর্ভাগে ভাগ করে মাঝের দুটি ভাগের গাণিতিক গড় নেওয়া হয় |
মধ্যসীমা | |
উইন্সর্ডাইজড গড় | এটাও কর্তিত গড়ের একটি প্রকারভেদ যেখানে উচ্চতর ও নিম্নতর মানগুলো বাদ দেওয়ার বদলে তাদেরকে তালিকার বৃহত্তম ও ক্ষুদ্রতম সংখ্যা দ্বারা পরিবর্তন করা হয়। |
বার্ষিক মিশ্র প্রবৃদ্ধির হার |
কেন্দ্রপ্রবণতার বিভিন্ন পরিমাপকে ভেরিয়েশনাল প্রবলেমের (দেখুন: ক্যালকুলাস অফ ভেরিয়েন্স বা ভেদের কলনবিদ্যা) সমাধান হিসেবে প্রকাশ করা যায়। যেখানে কেন্দ্রমান থেকে বিচ্যুতি(পার্থক্য বা ভেদ) হ্রাস করারটাই মূল লক্ষ্য। ধরাযাক কোনো পারিসংখ্যানিক উপাত্ত দেওয়া আছে যেখানে এমন একটি গড় মান চাওয়া হচ্ছে যেন ভেরিয়েশন সবচেয়ে কম হয়। অর্থাৎ কেন্দ্রমান হিসেবে যে সবকল মানকে নেওয়া যায় তাদের মধ্যে সেটিকেই নিতে হবে যার জন্য পুরো উপাত্তের ভেরিয়েন্স সবচেয়ে কম হয়। Lp স্পেস হিসাবে চিন্তা করলে সম্পর্কটা দাঁড়ায়:
Lp | ভেদ বা বিচ্যুতি | কেন্দ্র প্রবণতা |
---|---|---|
L1 | গড় পরম বিচ্যুতি | মধ্যক |
L2 | আদর্শ বিচ্যুতি | গাণিতিক গড় |
L∞ | সর্বোচ্চ বিচ্যুতি | মধ্যসীমা |
অর্থাৎ, গড় মান হিসেবে অন্য কোনো বিন্দুর তুলনায় গাণিতিক গড়ের সাপেক্ষে আদর্শ বিচ্যুতি (স্টান্ডার্ড ডেভিয়েশন) সবচেয়ে কম কম হবে। গড়ের এই অনন্যতা(ইউনিকনেস) কনভেক্স অপটিমাইজেশন থেকে উৎসরিত। অবশ্যই কোনো একটি নির্ধারিত উপাত্ত তালিকা x এর জন্য, ফাংশন:
L2 নর্মে ধ্রুবক c এর সাপেক্ষে মানসমূহের বিচ্যতি প্রকাশ করে। যেহেতু ƒ2 ফাংশনটি, একটি সুনির্দিষ্ট কনভেক্স কোএর্সিভ ফাংশন, সেহেতু এমন একটি মিনিমাইজার, c(যার জন্য ফাংশনটির মান ন্যূনতম/সর্বনিম্ন) থাকবেই এবং সেটা অনন্য(ইউনিক)।
সেই হিসেবে দেখলে মধ্যক মান সাধারণত অনন্য(ইউনিক) না। বস্তুত, কোনো বিচ্ছিন্ন সংখ্যাবিস্তারের (ডিস্ক্রিট ডিস্ট্রিবিউশন) দুইটি কেন্দ্রীয় বিন্দুর অন্তর্বর্তী যে কোনো বিন্দুর জন্যই গড় পরম বিচ্যুতি সর্বনিম্ন হয়। L1 নর্মের বিচ্যুতির ফাংশন
স্ট্রিক্টলি কনভেক্স নয়, যেখানে স্ট্রিক্ট কনভেক্সিটি মিনিমাইজারের অনন্যতার জন্য অপরিহার্য। এ সত্তেও L∞ নর্মে মিনিমাইজার অনন্য।
গড় নির্ণয়ের আরও কিছু উচ্চতর গাণিতিক পদ্ধতি রয়েছে যেমন- ত্রিগড়(ট্রাইমিন), ত্রিমধ্যক(ট্রাইমেডিয়ান) এবং নর্মালাইজড গড়।
সাধারণ f-গড় এর সাহায্যে কেউ চাইলে গড় নির্ণয়ের জন্য তার নিজের সৃষ্ট পরিমাপ পদ্ধতি (অ্যাভারেজ মেট্রিক) ব্যবহার করতে পারে:
যেখানে f যেকোনো একটি নির্দিষ্ট ফাংশন। হার্মোনিক গড় এই পদ্ধতির একটি উদাহরণ যেখানে f(x) = 1/x এবং জ্যামিতিক গড় ও আরেকটি উদাহরণ যেখানে, f(x) = log x। আরেকটি উদাহরণ হিএসে সূচক-গড় হতে পারে যেখানে f হিসেবে f(x) = ex, কে নেওয়া হবে যদিও এটা অন্তর্গত ভাবেই উচ্চতর মানের দিকে ঝোক প্রবণ। তারপরেও গড় নির্নয়ের এই পদ্ধতি ঠিক অতোটা সাধারণ না যে সব রকমের গড় নির্নয় পদ্ধতিকেই এভাবে প্রকাশ করা সম্ভব হবে। গড় নির্ণয়ের আরও সাধারণ পদ্ধতি তে একটি ফাংশন নিতে হবে g(x1, x2, ..., xn) যা আর্গুমেন্টসমূহের সকল বিন্যাসের জন্যই অপরিবর্তিত থাকে এবং এরপর একে সমীকৃত করতে হবে একই ফাংশনের সব আর্গুমেন্টকে গড় মান দিয়ে পরিবর্তন করে। অর্থাৎ, g(x1, x2, ..., xn) = g(y, y, ..., y). এই সবচেয়ে সাধারণীকৃত গড়ের সংজ্ঞাও গড়ের যেই মৌলিক বৈশিষ্ট্যকে ধারণ করে, যেটা হচ্ছে: যদি কোনো তালিকার সব সংখ্যাই একটি নির্দিষ্ট মানের সমান হয়, তাহলে যে পদ্ধতিতেই গড় নির্ণয় করা হোক না কেন সেই গড়, ওই নির্দিষ্ট মানের সমান হবে। ফাংশন g(x1, x2, ..., xn) =x1+x2+ ...+ xn থেকে আমরা পাই গাণিতিক গড়। ফাংশন g(x1, x2, ..., xn) =x1•x2• ...• xn থেকে পাই জ্যামিতিক গড়। এবং ফাংশন থেকে পাই g(x1, x2, ..., xn) =x1−1+x2−1+ ...+ xn−1 হারমোনিক গড়। (দেখুন John Bibby (1974) “Axiomatisations of the average and a further generalisation of monotonic sequences,” Glasgow Mathematical Journal, vol. 15, pp. 63–65.)
গড়ের ধারণা প্রবাহমান উপাত্ত(স্ট্রিম অফ ডাটা) থেকে শুরু করে কোনো বদ্ধ সেটে প্রয়োগ করা যেতে পারে, যেখানে লক্ষ্য হচ্ছে এমন একটা মান খুজে বের করা যার সাপেক্ষে সমকালিন উপাত্ত(রিসেণ্ট ডাটা)গুলো পুঞ্জিভুত(ক্লাস্টার্ড)। তথ্য প্রবাহের বিস্তৃতি হতে পারে সময়ে, যেমন কোনো একটা সংগ্রহ পদ্ধতিতে বিভিন্ন সময়ে সংগ্রহ করা তথ্য যা থেকে আমরা নয়েজ দূর করতে চাই, আবার বিস্তৃতি হতে পারে স্পেসে, যেমন কোনো ছবির পিক্সেলসমূহ থেকে যদি আমরা কোনো বৈশিষ্ট গাণিতিক উপায়ে বের করতে চাই। কোনো তথ্য প্রবাহ থেকে গড় বের করার জন্য বহুল ব্যবহৃত পদ্ধতি হচ্ছে সিম্পিল মুভিং অ্যাভারেজ বা চলমান গড় পদ্ধতি, যেখানে সবচেয়ে নিকট সময়ে সংগৃহীত N টি উপাত্তের গড় নেওয়া হয়। প্রবাহের এক ঘর সামনে যেতে আমরা চলমান গড়ের সাথে নতুন উপাত্তের 1/N অংশ যোগ করি এবং N ঘর পিছনের উপাত্তের 1/N অংশ বিয়োগ করি।
গড়ের ধারণা ফাংশনের ক্ষেত্রেও প্রবৃদ্ধ করা যায়। [৩] ক্যালকুলাসে কোনো সমাকলনযোগ্য(ইন্ট্রিগেবল) ফাংশন ƒ এর গড় [a,b] এই সীমার মধ্যে নির্ণয়ের সূত্র হচ্ছে: :
অ্যাভারেজ শব্দটির আদি(c. 1500) অর্থ “damage sustained at sea”। এই শব্দের মূল আরবি তে পাওয়া যায় ‘আওয়ার’, ইটালিয়ানে ‘অ্যাভারিয়া’, ফরাসিতে ‘অ্যাভেরি’, ডাচে ‘অ্যাভেরিজ’। একারণেই ‘অ্যাভারেজ অ্যাডজাস্টার’ হচ্ছে সেই ব্যক্তি যে ক্ষতিপূরণ পরিশোধ করে।
মেরিন ড্যামেজ এ হয় ‘পার্টিকুলার অ্যাভারেজ’, যেটা শুধু মাত্র সম্পত্তির মালিক বহন করে, অথবা ‘জেনারেল অ্যাভারেজ’ যেখানে মালিক এই মেরিন ভেনচারে সম্পর্কিত সকল পক্ষ অংশগ্রহণ করে দাবি করতে পারে। এই জেনারেল অ্যাভারেজের হিসাব করতে গিয়েই ‘গাণিতিক গড়ের’ নাম ‘অ্যাভারেজ’ বা গড় হয়ে গেছে।
এদিকে অক্সফোর্ড ইংরেজি ডিকশনারী মতে ইংরেজিতে ‘অ্যাভারেজ’ শব্দটার সবচেয়ে প্রাচীন(১৪৮৯ পূর্ব) ব্যবহার দেখা যায় একটা পুরাতণ আইনি নথিতে শেরিফের কাছে কোনো ভাড়াটিয়ার দৈনিক পারিশ্রমিকের আইনি বাধ্যবাধকতা বিষয়ে। শব্দটি সম্ভবত ‘অ্যভেরা’ এর ইংরেজিকৃত রূপ। পরে ফরাসি ‘অ্যাভেরি’র ইংরেজি প্রতিরূপ খোঁজার সময় এটাকেই গ্রহণ করা হয়।