কৃত্রিম বুদ্ধি - কর্মক্ষমতা পরিমাপ করার পদ্ধতি - নির্ভুলতা, যথার্থতা, পুনর্বিবেচনা, এফ 1, আরওসি, আরএমএসই, এফ-পরীক্ষা এবং আর-স্কোয়ার

আমরা বর্তমানে অনেকগুলি এআই অ্যালগরিদম তৈরি হচ্ছে দেখছি, তবে আমরা কীভাবে এই মডেলগুলির পারফরম্যান্সটি পরিমাপ করতে পারি? এটি শনাক্ত করার জন্য আমাদের কী কী শর্তাবলী দেখতে হবে?

এই নিবন্ধগুলিতে আমি এই প্রশ্নগুলি মোকাবেলা করতে চাই। "শ্রেণিবদ্ধকরণ মডেলগুলি" থেকে শুরু করে যেখানে আমরা যথাযথতা, যথার্থতা, পুনর্বিবেচনা, এফ 1 স্কোর এবং আরওসি বক্ররেখাকে "রিগ্রেশন মডেলগুলির" দিকে দেখব যেখানে আমরা রুট গড় স্কোয়ার ত্রুটি, এফ-টেস্ট এবং আর-স্কোয়ার পদ্ধতিগুলি মোকাবিলা করব।

শ্রেণিবদ্ধকরণ মডেলগুলিতে পারফরম্যান্স

প্রায়শই আমরা যখন ইন্টারনেটে কাগজগুলির মাধ্যমে পড়ছি, আমরা দেখতে পেলাম একটি টেবিলটি এমন দেখাচ্ছে:

দ্রষ্টব্য: ওয়েব টেক্সট স্লাইডগুলি থেকে নেওয়া নম্বরগুলি।

তবে এগুলি আসলে কী বোঝায়? আচ্ছা, "বিভ্রান্তি ম্যাট্রিক্স" প্রবর্তন করে শুরু করে বিভিন্ন পদগুলিতে আরও গভীরভাবে নজর দেওয়া যাক।

কনফিউশন ম্যাট্রিক্স

পারফরম্যান্স মেট্রিক্স ব্যাখ্যা করতে সক্ষম হওয়ার আগে আমাদের একটি মূল ধারণাটি হ'ল কনফিউশন ম্যাট্রিক্স।

সংজ্ঞা: একটি বিভ্রান্তির ম্যাট্রিক্স এমন একটি টেবিল যা প্রায়শই পরীক্ষার ডেটার একটি সেটে শ্রেণিবদ্ধকরণ মডেল (বা "শ্রেণিবদ্ধকারী") এর কার্যকারিতা বর্ণনা করতে ব্যবহৃত হয় যার জন্য সত্য মানগুলি জানা যায়।

একটি কনফিউশন ম্যাট্রিক্স এর মতো দেখতে পাবেন:

উপরেরগুলি "বিভ্রান্তিকর" দেখাচ্ছে তবে এটি আসলে বেশ সহজ। শীর্ষ লাইনটি "আসল মান (= সত্য)" নির্দেশ করে যখন বাম দিকটি "পূর্বাভাস" দেখায়।

আমরা এর অর্থে এটি দেখতে পেতাম যখনই আমরা সঠিকভাবে ভবিষ্যদ্বাণী করি আমরা "সত্য" দেখতে পাব, যখন আমরা ভুলভাবে পূর্বাভাস দিচ্ছি ততই আমরা "মিথ্যা" দেখতে পাব প্রকৃত মান ধনাত্মক বা নেতিবাচক সাথে

ভরাট শর্তাদি এ ম্যাপিং:

  • সত্য ধনাত্মক: অনুমান = সত্য, সত্য = সত্য
  • মিথ্যা ধনাত্মক: অনুমান = সত্য, সত্য = মিথ্যা
  • মিথ্যা নেতিবাচক: ভবিষ্যদ্বাণী = মিথ্যা, সত্য = সত্য
  • সত্য Neণাত্মক: পূর্বাভাস = মিথ্যা, সত্য = মিথ্যা

এই আরও পরিষ্কার করার জন্য একটি উদাহরণ তাকান।

উদাহরণ: "আমরা কোনও শ্রেণিবদ্ধের জন্য বিভ্রান্তির ম্যাট্রিক্সটি দেখাতে চাই যে যদি কোনও বস্তুর স্বীকৃতি মডেল কোনও জিনিসকে গাড়ি হিসাবে আবিষ্কার করে বা না সনাক্ত করে তবে শ্রেণিবদ্ধকরণ করে"। তারপরে আমরা ১,০০০ পরীক্ষার ক্ষেত্রে নিম্নলিখিত বিভ্রান্তির ম্যাট্রিক্সটি দেখতে পেলাম:

দেখানো হচ্ছে যে আমরা 330 টি ক্ষেত্রে একটি গাড়ি সঠিকভাবে চিহ্নিত করেছি, 2 বার ভুলভাবে একটি গাড়ি সনাক্ত করেছি, সঠিকভাবে পূর্বাভাস দিয়েছিলাম যে এটি 661 বার গাড়ি নয় এবং ভুলভাবে ভবিষ্যদ্বাণী করেছিল যে এটি 7 বার গাড়ি নয়।

বা অন্য কথায়: আমরা 9 ​​বার ভুল হয়েছি এবং 991 বার সংশোধন করেছি (এটি যথার্থতা হিসাবেও পরিচিত, তবে পরে এটি সম্পর্কে আরও কিছু)।

সঠিকতা

সংক্ষেপে: নির্ভুলতা মডেলটি কতটা ভাল পারফর্ম করে তা

সূত্র: (টিপি + টিএন) / (টিপি + টিএন + এফপি + এফএন) বা #CORRECT_PREDICTIONS / # মোট

স্পষ্টতা

সংক্ষেপে: আমাদের ইতিবাচক ভবিষ্যদ্বাণীতে আমরা কতবার সঠিক?

সূত্র: (টিপি) / (টিপি + এফপি) বা #CORRECT_POSITIVE_PREDICTIONS / #POSITIVE_SAMPLES

যথার্থতার সাথে আমরা নিশ্চিত করতে চাই যে এটি ইতিবাচক হওয়া উচিত কিনা আমরা সঠিকভাবে বলতে পারি। উদাহরণস্বরূপ আমাদের উপরের উদাহরণে আমরা নিশ্চিত করতে চাই যে আমরা যখন বলি যে এটি গাড়ি, এটি সত্যই একটি গাড়ি এবং অন্য কোনও বস্তু নয়। এটি গুরুত্বপূর্ণ কারণ আমরা প্রায়শই আমাদের সনাক্তকরণের উপর ভিত্তি করে পদক্ষেপ নেব (উদাহরণস্বরূপ একটি স্ব-ড্রাইভিং গাড়িতে আমরা এর উপর ভিত্তি করে গতি পরিবর্তন করতে পারি)।

প্রত্যাহার

সংক্ষেপে: কতবার আমরা ভুলভাবে কিছুকে সত্য (= মিথ্যা) হিসাবে শ্রেণীবদ্ধ করেছি?

সূত্র: (টিপি) / (টিপি + এফএন) বা #CORRECT_POSITIVE_PREDICTIONS / #TRUE_TRUTH_VALUES

প্রত্যাহার ভুলভাবে কিছু ভবিষ্যদ্বাণী করার ব্যয়টিকে হাইলাইট করে। উদাহরণস্বরূপ, গাড়ীর উদাহরণে, আমরা যখন ভুলভাবে এটি গাড়ি হিসাবে চিহ্নিত করি না তখন আমরা গাড়িতে আঘাত করতে পারি।

এফ 1 স্কোর

সংক্ষেপে: নির্ভুলতার সদ্ব্যবহার করুন এবং "সুরেলা গড়" এর মাধ্যমে পরীক্ষার যথার্থতা তৈরি করতে পুনরায় স্মরণ করুন। এটি কনফিউশন ম্যাট্রিক্সের বাম-নীচে থেকে ডান-উপরে ডায়াগোনেলের উপর দৃষ্টি নিবদ্ধ করে।

সূত্র: 2 * ((যথার্থ * প্রত্যাহার) / (যথার্থ + প্রত্যাহার))

যথার্থতা এবং পুনর্বিবেচনার সংজ্ঞাগুলি দেখে, আমরা দেখতে পাচ্ছি যে তারা উভয়ই উচ্চ প্রভাবের মামলায় মনোনিবেশ করে (উদাহরণস্বরূপ যখন আমরা গাড়ি (= এফএন) হিসাবে ভুলভাবে সনাক্ত করেছি তখন আমরা গাড়ি ক্রাশ করতে চাই না এবং আমরা বলতে চাই না) এটি একটি গাড়ি যদি এটি না হয় (= এফপি)। এফ 1 স্কোর এটিই করে, এটি নির্ভুলতার স্কোরের তুলনায় আমাদের ব্যবসায়কে সবচেয়ে বেশি প্রভাবিত করে তার উপর দৃষ্টি নিবদ্ধ করবে।

অন্য পদগুলিতে, আমরা এইভাবে বলতে পারি যে এফ 1 স্কোরটি বাম-নীচে থেকে ডানদিকের তির্যককে কেন্দ্র করে।

আরওসি বক্ররেখা

সংক্ষেপে: এই বক্ররেখা আমাদের সর্বোত্তম মডেল নির্বাচন করতে এবং উপ-অনুকূলগুলি বাতিল করতে দেয়।

সূত্র: মিথ্যা পজিটিভ রেট (এফপিআর) = এক্স-এক্সিস এবং ট্রু পজিটিভ রেট (টিপিআর) = ওয়াই-এক্সিস

  • এফপিআর: টিপি / (টিপি + এফএন)
  • টিপিআর: এফপি / (এফপি + টিএন)

আরওসি কার্ভ (= রিসিভার অপারেটিং চরিত্রগত) পারফরম্যান্সটি দেখায়, যখন "এউসি (= বক্ররেখার নিচে অঞ্চল)" পারফরম্যান্স মেট্রিক এটিকে শ্রেণিবদ্ধকরণ মডেলের কর্মক্ষমতা পরিমাপের মান হিসাবে বর্ণনা করতে দেয় allows

প্রতিবার যখন আমরা কোনও বিন্দুকে শ্রেণিবদ্ধ করি, তখন এটি মেলে বা শ্রেণিবদ্ধ হয় বা না হয় (যেমন, এটি গাড়ি বা না) আমাদের সম্ভাব্যতা ফিরিয়ে আনা হবে। তবে সত্য বা মিথ্যা ফিরিয়ে দিতে সক্ষম হতে এখন আমাদের একটি প্রান্তিক প্রবর্তন করতে হবে যা এই সম্ভাবনাটিকে শ্রেণিবিন্যাসে রূপান্তরিত করবে।

নির্বাচিত প্রান্তিকের উপর ভিত্তি করে, আমরা একটি বিভ্রান্তির ম্যাট্রিক্স তৈরি করতে সক্ষম হব।

আমরা এখন আমাদের প্রান্তিক মান (যেমন আমরা [0, 1] থেকে [0.0, 0.1, 0.2,…, 0.9, 1.0] এর পরিসীমা তৈরি করি) এর পরিসরকে আলাদা করে দেব যা আমরা এখন এর জন্য সংশ্লিষ্ট বিভ্রান্তির ম্যাট্রিক তৈরি করতে পারি। এই বিভ্রান্তির ম্যাট্রিক্সের সাথে আমরা এখন টিপিআর = টিপি / (এফপি + টিএন) সূত্রের মাধ্যমে সত্য পজিটিভ হার (= টিপিআর) এবং এফপিআর = টিপি / (টিপি + এফএন) এর মাধ্যমে মিথ্যা পজিটিভ রেট (= এফপিআর) গণনা করব এবং এগুলি প্লট করব plot ।

পরিণামে এটির ফলাফল হিসাবে কিছু হবে:

দ্রষ্টব্য: আমাদের এমন একটি মডেল রয়েছে যার উচ্চতর এউসি মান আছে বা একটি আরওসি বক্ররেখা রয়েছে যা যথাসম্ভব বাম উপরে দেখায় have

রিগ্রেশন মডেলগুলিতে পারফরম্যান্স

রিগ্রেশন মডেলগুলির পারফরম্যান্স গণনা করতে, আমরা গাণিতিক সূত্রগুলি ব্যবহার করি যা প্লট করা গ্রাফটিকে আমাদের পূর্বাভাস দিচ্ছে এমন পয়েন্টগুলির সাথে তুলনা করবে।

একটি ভাল রিগ্রেশন মডেল নিরপেক্ষ থাকাকালীন পর্যবেক্ষণ এবং পূর্বাভাসিত মানের মধ্যে পার্থক্য হ্রাস করার দিকে মনোনিবেশ করা উচিত। (নিরপেক্ষতার অর্থ হ'ল আমরা অতি-অনুমান এবং নিম্ন-অনুমানের মধ্যে ভারসাম্য খুঁজে পাওয়ার চেষ্টা করি)

রুট গড় স্কোয়ার ত্রুটি (আরএমএসই)

এটি কেবল গড় স্কয়ার ত্রুটির মূল:

যা প্রকৃত বিন্দু এবং পূর্বাভাসিত বিন্দুর মধ্যকার দূরত্ব গ্রহণে অনুবাদ করে এটি বর্গাকার করে এবং তারপরে আমাদের কাছে পয়েন্টের পরিমাণের সাথে ভাগ করে দেয় for

গ্রাফিকালি এই চেহারা:

এফ টেস্ট

সংক্ষেপে: এফ-টেস্টটি স্ট্যাটিস্টিকাল মডেলগুলির সাথে তুলনা করতে ব্যবহার করা হয় যা একটি ডেটাসেটের সাথে লাগানো হয়েছিল, এটি আমাদের সেই মডেলটি সনাক্ত করতে সহায়তা করে যা জনসংখ্যাকে সবচেয়ে ভাল ফিট করে।

সূত্র:

বর্ণিত বৈকল্পিকতা:

অব্যক্ত ভেরিয়েন্স:

কোথায়:

  • কে = গ্রুপের সংখ্যা
  • এন = সামগ্রিক নমুনার আকার
  • ইজিওয়িজ = কে-গ্রুপের মধ্যে আই-ম-এর মধ্যে জে-তম পর্যবেক্ষণ
  • ইয়ামিয়ান = ডেটার সামগ্রিক গড়

আর-স্কোয়ারড

সংক্ষেপে: আর-স্কোয়ার্ড বর্ণনা করে যে কোনও মডেল লিনিয়ার রিগ্রেশন মডেলের জন্য কতটা ফিট করে। উচ্চতর আর, তত ভাল ফিট।

সূত্র:

নীচের ছবিটি চিত্রিত করেছে:

  • এসএসটোট: লাল
  • এসএসআরএস: নীল

আর-স্কোয়ার্ড (বা "নির্ধারণের গুণফল" নামেও ডাকা হবে) ফিটেড রিগ্রেশন লাইনের সাথে ডেটা কতটা নিকটে রয়েছে তা দেখায়। বা অন্য কথায়, এটি নির্ভরশীল ভেরিয়েবলের বৈকল্পিকতার শতাংশ নির্দেশ করে যা স্বতন্ত্র ভেরিয়েবলগুলি সম্মিলিতভাবে ব্যাখ্যা করে।

এটি একটি আকর্ষণীয় মেট্রিক, কারণ এটি আমাদের মডেলকে বেশি সাজিয়ে তোলা হচ্ছে কিনা তা আমাদের আরও ভাল করে বুঝতে দেয়।