
مهارة تنظيف البيانات

:مهارة تنظيف البيانات
تنظيف البيانات هو عملية إزالة أو تصحيح الأخطاء والتناقضات في البيانات لجعلها جاهزة للتحليل.
ويشمل التعامل مع القيم المفقودة ، التكرار ، القيم المتطرفة
التنسيقات غير الموحدة
:مثال مبسط
جدول يحتوي على أعمار الطلاب، لكن بعض الخانات فارغة أو تحتوي على "غير معروف" أو "عمره كبير جدًا".
🧪 الجزء الثاني: أنواع المشاكل في البيانات
مثال |
الوصف |
المشكلة
|
خانة العمر فارغة |
بيانات غير مدخلة |
القيم المفقودة |
نفس الطالب مكرر مرتين |
صفوف مكررة |
التكرار |
عمر طالب = 150 سنة |
أرقام غير منطقية |
القيم المتطرفة |
"القاهرة" و"CAIRO" |
اختلاف في طريقة كتابة البيانات |
تنسيقات غير موحدة |
هنا يحتوي الجدول علي اخطاء تحتاج لتنظيفها مثل بعض الخانات الفارغة التي تعبر عن قيم مفقودة وحالات مكررة
وأيضا اعمار طلاب غير منطقية وهي قيم متطرفة،ولغة وتنسيقات غير موحدة.
مثال تدريبي :
البريد الإلكتروني |
التخصص |
المحافظة |
العمر |
الاسم بالكامل |
ahmed@gmail.com |
إعلام |
المنيا |
22 |
أحمد محمد |
saraa@ymail |
صحافة |
القاهرة |
|
سارة حسن |
mohammad@@hotmail |
إعلام |
cairo |
150 |
محمد صلاح |
saraa@ymail |
صحافة |
القاهرة |
|
سارة حسن |
reemgmail.com |
علاقات عامة |
Giza |
غير معروف |
ريم خالد |
islam@gmail.com
|
علاقات عامة |
الجيزة |
23 |
إسلام فؤاد |
reem@gmail.com |
علاقات عامة |
Giza |
25 |
ريم خالد |
الأخطاء المقصودة في الملف
قيم مفقودة :العمر غير مدخل في صفين
. سارة حسن مكررة بنفس المعلومات. تكرار الصفوف:
قيم متطرفة : عمر محمد صلاح غير منطقي (150 سنة)
تنسيقات غير موحدة :المحافظات مكتوبة بأكثر من شكل.
أخطاء في البريد الإلكتروني: بعضها بدون (@) وبعضها مكرر أو غير صحيح.
© copyright 2025 Data Journalism