![]() | এই সাহায্য পাতাটি একটি কীভাবে করবেন ধরনের নির্দেশিকা। এটি উইকিপিডিয়ার কিছু নিয়ম ও পদ্ধতির বিশদ বর্ণনা করে। এটি উইকিপিডিয়ার কোনো নীতিমালা বা নির্দেশাবলী নয়। |
উইকিপিডিয়া আগ্রহী ব্যবহারকারীদের জন্য উপলব্ধ সমস্ত সামগ্রীর বিনামূল্য মুদ্রণ প্রদান করে। এই ডাটাবেজগুলো মিররিং, ব্যক্তিগত ব্যবহার, তথ্য সংরক্ষণ, অফলাইনে ব্যবহার বা ডাটাবেজ কুয়েরি (যেমন: উইকিপিডিয়া:রক্ষণাবেক্ষণের জন্য) প্রভৃতির জন্য ব্যবহার করা হতে পারে। সমস্ত পাঠ্য বিষয়বস্তু ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন-শেয়ারঅ্যালাইক ৩.০ লাইসেন্স (সিসি-বাই-এসএ) এবং গ্নু ফ্রি ডকুমেন্টেশন লাইসেন্স (জিএফডিএল) এর অধীনে বহু-লাইসেন্সযুক্ত। ছবি এবং অন্যান্য ফাইল বিভিন্ন শর্তে পাওয়া যায়, যেমনটি বিবরণ পৃষ্ঠায় বিস্তারিত আছে। এই লাইসেন্সগুলি মেনে চলার বিষয়ে আমাদের পরামর্শের জন্য, উইকিপিডিয়া:কপিরাইট দেখুন।
অফলাইনে থাকা অবস্থায় উইকিপিডিয়া পড়ার অনেক উপায়ের মধ্যে কয়েকটি:
সেগুলোর মধ্যে কিছু মোবাইল অ্যাপ্লিকেশন – দেখুন " উইকিপিডিয়া মোবাইল অ্যাপ্লিকেশনের তালিকা"।
মূলকথা: মাল্টিস্ট্রিম ভার্সনটি পান! (এবং ইনডেক্স ফাইলে প্রতিরূপ: pages-articles-multistream-index.txt.bz2)
pages-articles.xml.bz2 এবং pages-articles-multistream.xml.bz2 উভয়েরই একই xml বিষয়বস্তু রয়েছে। তাই আপনি যদি হয় আনপ্যাক করেন, আপনি একই ডেটা পাবেন। কিন্তু মাল্টিস্ট্রিমে, পুরো ফাইলটি আনপ্যাক না করেই আর্কাইভ থেকে একটি নিবন্ধ পাওয়া সম্ভব। আপনার রিডারের আপনার জন্য এটির সমর্থন রাখা উচিত। যদি আপনার পাঠক এটিকে সমর্থন না করে তবে এটি একই কাজ করবে; যেহেতু মাল্টিস্ট্রিম এবং নন-মাল্টিস্ট্রিম একই xml ধারণ করে। মাল্টিস্ট্রিমের একমাত্র নেতিবাচক দিক হল এটি সামান্য বড়। আপনি ছোট নন-মাল্টিস্ট্রিম আর্কাইভ পেতে প্রলুব্ধ হতে পারেন, কিন্তু আপনি যদি এটি আনপ্যাক না করেন ততক্ষণ পর্যন্ত এটি কোনো কাজের নয়। আর এটি তার আসল আকারের ~5-10 গুণে আনপ্যাক হবে। বজ্র আঁটুনি, ফসকা গেরো- তাই মাল্টিস্ট্রিমই নিন।
উল্লেখ্য, মাল্টিস্ট্রিম ডাম্প ফাইলে ভ্যানিলা ফাইলের বিপরীতে একাধিক bz2 'stream' (bz2 header, body, footer) একসাথে একটি ফাইলে যুক্ত থাকে, যেখানে ভ্যানিলাতে কেবল একটি stram রয়েছে। মাল্টিস্ট্রিম ডাম্পে প্রতিটি পৃথক 'stream' (বা প্রকৃতই ফাইল) ১০০টি পৃষ্ঠা রয়েছে, সম্ভবত শেষটি ছাড়া।
মাল্টিস্ট্রিমের জন্য, আপনি একটি সূচী ফাইল পেতে পারেন, pages-articles-multistream-index.txt.bz2 । এই ইনডেক্সের প্রথম ক্ষেত্রটি হল page-articles-multistream.xml.bz2 আর্কাইভে বাইটের সংখ্যাঅনুসন্ধান করার জন্য, দ্বিতীয়টি নিবন্ধ আইডি, তৃতীয়টি নিবন্ধের শিরোনামের জন্য৷
ইনডেক্সে পাওয়া বাইট অফসেট ব্যবহার করে ডিডি দিয়ে আর্কাইভ থেকে একটি ছোট অংশ কেটে ফেলুন। আপনি তারপর হয় bzip2 এটিকে ডিকম্প্রেস করতে পারবেন অথবা bzip2recover ব্যবহার করতে পারবেন এবং নিবন্ধ আইডির জন্য প্রথম ফাইলটি অনুসন্ধান করতে পারবেন।
https://docs.python.org/3/library/bz2.html#bz2 দেখুন। BZ2Decompressor এই ধরনের মাল্টিস্ট্রিম ফাইল এবং পাইথন দিয়ে কীভাবে ডিকম্প্রেস করা যায় সে সম্পর্কে তথ্যের জন্য। এছাড়াও https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt এবং এটির সম্পর্কিত পুরানো কাজের খেলাঘরের ফাইলগুলি দেখুন৷
dumps