مهارة تنظيف البيانات

Hala Mohy
10/6/2025 5:01:59 PM

 :مهارة تنظيف البيانات

تنظيف البيانات هو عملية إزالة أو تصحيح الأخطاء والتناقضات في البيانات لجعلها جاهزة للتحليل.

ويشمل التعامل مع القيم المفقودة ، التكرار ، القيم المتطرفة

التنسيقات غير الموحدة

:مثال مبسط 

جدول يحتوي على أعمار الطلاب، لكن بعض الخانات فارغة أو تحتوي على "غير معروف" أو "عمره كبير جدًا".

🧪 الجزء الثاني: أنواع المشاكل في البيانات

مثال

الوصف

المشكلة

 

خانة العمر فارغة

بيانات غير مدخلة

القيم المفقودة

نفس الطالب مكرر مرتين

صفوف مكررة

التكرار

عمر طالب = 150 سنة

أرقام غير منطقية

القيم المتطرفة

"القاهرة" و"CAIRO"

اختلاف في طريقة كتابة البيانات

تنسيقات غير موحدة

 

هنا يحتوي الجدول علي اخطاء تحتاج لتنظيفها مثل بعض الخانات الفارغة التي تعبر عن قيم مفقودة وحالات  مكررة

 وأيضا اعمار طلاب غير منطقية وهي قيم متطرفة،ولغة وتنسيقات غير موحدة.

مثال تدريبي :

البريد الإلكتروني

التخصص

المحافظة

العمر

الاسم بالكامل

ahmed@gmail.com

إعلام

المنيا

22

أحمد محمد

saraa@ymail

صحافة

القاهرة

 

سارة حسن

mohammad@@hotmail

إعلام

cairo

150

محمد صلاح

saraa@ymail

صحافة

القاهرة

 

سارة حسن

reemgmail.com

علاقات عامة

Giza

غير معروف

ريم خالد

islam@gmail.com

 

علاقات عامة

الجيزة

23

إسلام فؤاد

reem@gmail.com

علاقات عامة

Giza

25

ريم خالد

 

 

الأخطاء المقصودة في الملف

قيم مفقودة :العمر غير مدخل في صفين

. سارة حسن مكررة بنفس المعلومات. تكرار الصفوف:

 قيم متطرفة : عمر محمد صلاح غير منطقي (150 سنة)

تنسيقات غير موحدة :المحافظات مكتوبة بأكثر من شكل.

أخطاء في البريد الإلكتروني: بعضها بدون (@) وبعضها مكرر أو غير صحيح.

© copyright 2025 Data Journalism