লোকেরা আমার ওয়েবসাইট থেকে ডেটা স্ক্র্যাপ করছে কিনা তা আমি কীভাবে বলতে পারি?


উত্তর 1:

হ্যাঁ, আপনার সাইটে পরিদর্শন করা অনুসন্ধান ইঞ্জিনগুলি এবং অন্যান্য এজেন্টদের সনাক্ত করা রকেট বিজ্ঞান নয়, তবে ব্যর্থতার বাস্তব সম্ভাবনা সহ এটি একটি শ্রমসাধ্য প্রক্রিয়া হতে পারে।

সার্ভার লগটিতে সাধারণত আপনার সাইটে প্রতিটি "হিট" এর জন্য এক-লাইন এন্ট্রি থাকে, যেখানে এই প্রসঙ্গে একটি "হিট" সাধারণত একটি HTML পৃষ্ঠা, একটি চিত্র ফাইল, একটি স্টাইল শীট (.css) ফাইলের জন্য অনুরোধ হয়, বা আপনি আপনার সাইট থেকে অন্য যে কোনও কিছুই পরিবেশন করছেন।

প্রতিটি এন্ট্রিতে অনেকগুলি ক্ষেত্র রয়েছে তবে এখানে আগ্রহের বিষয়গুলি রয়েছে

  • আইপি ঠিকানা, বা ডিএনএস ঠিকানা। এটি সেই মেশিনের ঠিকানা যা দেখেছিল।
  • উল্লেখ URL। নীতিগতভাবে এটি সেই পৃষ্ঠার ইউআরএল যা ব্যবহারকারী এজেন্ট আগে ছিল before প্রায়শই এটি ফাঁকা থাকে এবং খুব মাঝেমধ্যে কিছু ইউআরএল বিজ্ঞাপন করা, কৌতূহলী ওয়েবমাস্টারকে আকর্ষণ করতে এবং লগটি অনলাইনে প্রকাশিত হলে একটি হাইপারলিঙ্ক হিসাবে শেষ করতে নকল হয়।
  • ব্যবহারকারী এজেন্ট সনাক্তকারী। নীতিগতভাবে এটি মাকড়সা / ব্রাউজার / ওয়েববোট নামে সনাক্ত করে। কখনও কখনও একটি যোগাযোগের URL বা ইমেল ঠিকানা অন্তর্ভুক্ত করা হয়। এই ক্ষেত্রটি পুরোপুরি alচ্ছিক, এবং এটি নকল হতে পারে (উদাহরণস্বরূপ অপেরাতে আইআই এর মতো দেখতে এটির মতো সাইটগুলিতে অ্যাক্সেস করার অনুমতি দেওয়ার মতো ক্ষমতা রয়েছে যা অন্যথায় এটি স্বীকৃতি দেয় না)। আমি একবার একজন এজেন্টকে দেখেছি যে এটি প্রকাশিত প্রতিটি নতুন অনুরোধের জন্য এই নামটি পরিবর্তন করেছে (সম্ভবতঃ ছদ্মবেশের ফর্ম হিসাবে)।

এটা কি মানুষ? এটা কি মাকড়সা? আমি কিভাবে পার্থক্য বলতে পারি?

মানব, মাকড়সা এবং ওয়েববোটগুলির ব্রাউজ করার বিভিন্ন ধরণ রয়েছে।

  • একটি মানব ব্রাউজার কয়েক মিনিটের মধ্যে কেবল কয়েকটি পৃষ্ঠা পড়বে (যদিও তারা এক ঘন্টার মধ্যে আবার ফিরে আসতে পারে)। তাদের পড়া পৃষ্ঠাগুলি প্রায়শই একসাথে লিঙ্ক করা হবে (যদি না তারা আপনার সাইট অনুসন্ধান ইঞ্জিন ব্যবহার করে, বা বাইরে থেকে উল্লেখ করা না থাকে)।
  • একটি মাকড়সা সাধারণত আপনার সাইটে পৃষ্ঠাগুলির একটি তালিকা একত্রিত করে এগুলি এলোমেলোভাবে কমবেশি পরিদর্শন করবে (তাদের প্রথম সফরের সময়টি বাদে যখন তারা লিঙ্কগুলি অনুসরণ করতে পারে)। ভাল আচরণ করা মাকড়সাগুলি তারা আপনার সাইটের সাথে কী করতে পারে তা দেখতে "রোবটস টেক্সট" পড়বে এবং আপনার সাইটে অতিরিক্ত লোড না করার জন্য কেবল একবারে কয়েকটি পৃষ্ঠা পড়বে।
  • "ওয়েববটস" অর্থ অন্য কোনও ওয়েব রোবট। এগুলি নির্ধারিত টাস্ক অনুসারে আচরণে পৃথক হবে। সাইটের অনুলিপিগুলি খুব অল্প সময়ে আপনার সমস্ত পৃষ্ঠাগুলিকে একত্রে সংযুক্ত হিসাবে দখল করবে। অন্যদিকে, লিঙ্ক চেকাররা প্রতিদিন কেবল এক বা দুটি পৃষ্ঠা পরিদর্শন করতে পারে।

একটি বিশেষ এজেন্ট কী তা আমি কীভাবে খুঁজে বের করব?

Webbots

প্রতিবার একই আইপি ঠিকানা থেকে আসতে পারে (সাধারণত এটি ওয়েব-ভিত্তিক পরিষেবার কোনও রূপ বলে বোঝায়), বা ব্যবহারকারীর আইএসপি আইপি ঠিকানা থেকে (এটি বোঝাচ্ছে যে এটি কোনও ব্যবহারকারী মেশিনে চলমান কিছু সফ্টওয়্যার)।

ব্যবহারকারী দ্বারা চালিত ব্যবহারকারী এজেন্টস

, সাধারণত বিভিন্ন আইপি অ্যাড্রেস থেকে আসে যা প্রায়শই একটি ডিএনএস লুকআপ থাকে যা আইএসপি হিসাবে স্বীকৃত।


উত্তর 2:

অন্যান্য উত্তরদাতারা যেমন নির্দেশ করেছেন, আপনি নিজের সার্ভার লগগুলি ম্যানুয়ালি বিশ্লেষণ করতে পারেন। এটি অবশ্য খুব সঠিক পদ্ধতি নয়।

বটগুলি ক্রমবর্ধমান পরিশীলিত হয়। তাদের অনেকগুলি মানব ট্র্যাফিকের নিদর্শনগুলির অনুকরণে খুব ভাল। এমনকি আপনি যদি কোনও এজেন্টকে বট হিসাবে চিহ্নিত করতে পারেন তবে আপনি সাধারণত এটি বলতে পারবেন না যে এটি কোনও স্ক্র্যাপার বট, হ্যাকার বট বা অন্য কোনও ধরণের বোট কিনা।

বিভিন্ন ধরণের বটগুলি সঠিকভাবে চিহ্নিত করার জন্য বিশেষজ্ঞের জ্ঞান প্রয়োজন। আমি ডেটাডোম নামের সংস্থাটি সাফ সমাধান হিসাবে এটি সরবরাহ করি। আমাদের প্রযুক্তি আপনার সাইটে আগত সমস্ত ট্র্যাফিক সনাক্ত করে এবং শ্রেণিবদ্ধ করে এবং আপনাকে যে বটগুলি অ্যাক্সেস করতে চান না তা ব্লক করতে দেয়।

আমি আপনাকে আমন্ত্রণ জানাতে চাই

চেষ্টা কর

বিনামূল্যে (এটি ইনস্টল করা খুব সহজ)। এমনকি আপনি সাবস্ক্রাইব করতে না চাইলেও, পরীক্ষার সময় আপনি যে ড্যাশবোর্ডটিতে অ্যাক্সেস পেয়েছেন তা আপনাকে দেখাবে যে আপনার স্ক্র্যাপের বটগুলি আপনার সাইটে সক্রিয় রয়েছে এবং তারা কে। শুভকামনা!