Daffodil International University

IT Help Desk => IT Forum => Topic started by: Sahadat Hossain on January 27, 2020, 12:16:24 PM

Title: ২ কোটি ৫০ লাখ ডেটাসেট উন্মুক্ত করলো গুগল
Post by: Sahadat Hossain on January 27, 2020, 12:16:24 PM
ইন্টারনেটে প্রায় দুই কোটি ৫০ লাখ ডেটাসেট ব্যবহারের জন্য উন্মুক্ত করে দিলো গুগল। ‘ডেটাসেট সার্চ’ নামের এই উদ্যোগে ধীরে ধীরে আরও নানান ডেটাসেট যুক্ত করা হবে বলে জানিয়েছে বিশ্বখ্যাত এই সার্চ ইঞ্জিন।
সম্প্রতি গুগলের রিসার্চ বিভাগের রিসার্চ সায়েন্টিস্ট নাতাশা নও এক ব্লগ পোস্টে জানান, পুরো ওয়েব দুনিয়ায় রয়েছে লক্ষাধিক ডেটাসেট। এর মধ্যে ব্যবহারকারীদের নানান বিষয়ে আগ্রহ দেখা যায়। তাদের বহুমাত্রিক পছন্দের কথা ভেবেই গুগল এসব ডেটাসেট বিনামূল্যে ব্যবহারের জন্য উন্মুক্ত করে দিয়েছে।
নাতাশা নও বলেন, “আমাদের দীর্ঘদিনের গবেষণায় দেখেছি, ব্যবহারকারীরা এখন বিভিন্ন ধরনের ডেটা চায়। শিক্ষা প্রতিষ্ঠানে গবেষণা, শিক্ষার্থীদের পড়াশোনার কাজে ব্যবহার, বিজনেস অ্যানালাইসিস এবং ডেটা সায়েন্টিস্টদের জন্য ডেটা প্রয়োজন। বেশিরভাগ ক্ষেত্রেই দেখেছি ‘শিক্ষা’, ‘আবহাওয়া’, ‘ক্যান্সার’, ‘অপরাধ’, ‘সকার’ ও ‘কুকুর’ বিষয়ে ডেটা খুঁজে থাকেন অনেকেই।”
উন্মুক্ত করা ডেটাসেটগুলো ব্যবহার উপযোগী ফরম্যাটে পাওয়া যাচ্ছে। এটি উন্মুক্ত করার ব্যাপারে আমাজনের ওপেন ডেটা রেজিস্ট্রির মতো কাজটি করেনি গুগল। বরং এক্ষেত্রে ডেটাসেট পাবলিশারদের ব্যবহৃত মেটাডেটা ব্যবহারের মাধ্যমে ডেটাসেট উন্মুক্ত করেছে প্রযুক্তি প্রতিষ্ঠানটি। পরবর্তী সময়ে ডেটাগুলো মেটাডেটা অনুসরণ করে সার্চেবল আকারে ইনডেক্স করা হয়েছে।
সামাজিক যোগাযোগমাধ্যম ফেসবুকের ডেটা সায়েন্টিস্ট টম ওয়াটারম্যান গুগলের উন্মুক্ত ডেটাসেট প্রসঙ্গে বলেন, ‘উদ্যোগটি বেশ ভালো। আমি ব্যক্তিগতভাবে ডেটাসেট সার্চ করে দেখেছি, এর মধ্যে অর্ধেকই ফর-প্রফিট কাজে ব্যবহৃত করার জন্য রয়েছে। বাজার সম্পর্কিত ডেটাসেটও রয়েছে এই তালিকায়।’
ডেটাসেটের মধ্যে বিভিন্ন সরকারি ও গবেষণা প্রতিষ্ঠানের ডেটা যেমন রয়েছে, তেমনই ব্যবহারকারীদের কাজে লাগে এমন ডেটাও রাখা হয়েছে।
গুগলের তথ্যানুযায়ী, ডেটাসেটে তিন ধরনের ডেটার প্রাধান্য রয়েছে। এর মধ্যে উল্লেখযোগ্য ‘জিয়োসায়েন্স’, ‘বায়োলজি’ ও ‘এগ্রিকালচার’। বর্তমানে ডেটাসেট ব্যবহারের জন্য গুগল আলাদা কোনও এপিআই দিচ্ছে না।
গুগলের ডেটাসেট থেকে ফিল্টারের মাধ্যমে আলাদাভাবে টেবিল, ইমেজ ও টেক্সট বের করার সুযোগ রয়েছে। পুরো ডেটাসেটেই ওপেন স্ট্যান্ডার্ড নীতিমালা অনুসরণ করা হয়েছে।
স্কিমা ডট অর্গ ব্যবহারের মাধ্যমে চাইলে কেউ ওপেন স্ট্যান্ডার্ডে ডেটাসেট সার্চে এটি উন্মুক্ত করতে পারবেন। শুরুতে বেটা সংস্করণ চালু হলেও শিগগিরই পূর্ণাঙ্গভাবে ডেটাসেট উন্মুক্ত হবে বলে জানা গেছে।
আগ্রহীরা সরাসরি https://datasetsearch.research.google.com ঠিকানায় গিয়েই পাবেন ডেটাসেটগুলো।
তথ্যসূত্র: গুগল ব্লগ