مقدار در داده است (مشاهده) – Darkhorse Analytics



سپس شروع کنید یادگیری در مورد منابع داده شما. از کجا آمدی؟ چگونه کدگذاری شد؟ (انسان یا ماشین؟) چگونه ذخیره می شود؟ آیا وقفه ای وجود دارد؟ شاید آنها در نقطه ای از AS/400 تبدیل شده اند و همه چیز بعد از آن اعشار یا مقادیر بیشتری داشته باشد. هنگامی که منابع خود را مستند و درک کردید، به مرحله دوم رسیده اید: تراشیدن داده (توجه داشته باشید که بیش از یک منبع دارید).

حالا قسمت سرگرم کننده می آید: پاک کردن داده های شما. این به معنای خلاص شدن از شر موارد تکراری، رسیدگی به موارد خالی و رفع مشکلات مربوط به انواع داده است. این می تواند به معنای هماهنگ کردن تاریخ هایی مانند 02/03/04 (کانادا) و 02/04/03 (ایالات متحده)، مناطق زمانی یا حتی ساعت تابستانی باشد. رکوردهای هر یک از جداول خود را بشمارید و مطمئن شوید که مجموع آن ها منطقی است. شاید عصاره شما به جای پنج سال گذشته فقط سال گذشته را گرفته است. هدف شما در اینجا اصلاح مشکلات آشکار در هر یک از عناصر داده است. این فقط یک تمیز کردن سطحی است، اما شما قبلاً به مرحله سوم رسیده اید: دریاچه های داده.

پس از تمیز کردن، به سازماندهی داده های شما. برای اکثر تجزیه و تحلیل (و برای کمک به پاکسازی) این به معنای یک جدول است. یکی یک میز برای حکومت بر همه آنها.

با توسعه صفحات متقاطع خود شروع کنید به طوری که هر مورد داده فقط در یک ستون باشد. سوئیچ ها را تنظیم کنید و سپس جداول را به هم وصل کنید. ممکن است لازم باشد از تاریخ ها یا lat-long یا ترکیبی مبهم از نام ها یا آدرس ها استفاده کنید. ممکن است در نهایت با یک جدول بسیار گسترده با عناصر تکرار شونده روبرو شوید. این خوب است فضا ارزان است.

اطمینان حاصل کنید که هر متغیر (ستون) به درستی توصیف و درک شده است. خوب rec_date تاریخ دریافت سفارش یا تاریخ ایجاد رکورد؟ حتی ممکن است بخواهید یک دیکشنری داده ایجاد کنید.

این یک کار طاقت فرسا است، اما وقتی آن را انجام دادید، به سطح چهار رسیده اید. دریاچه های شما اکنون در یک دریاچه داده ادغام شده اند.

اکنون زمان آن است ایجاد داده های جدید. چی؟ داده های جدید ایجاد شود؟ درست شنیدی به ندرت مجموعه داده های شما شامل همه متغیرهایی است که می خواهید. طلای واقعی زمانی است که میدان‌های موجود را با هم ترکیب می‌کنید تا میدان‌های جدید را ایجاد کنید. در اینجا چند مثال برای جلب توجه شما آورده شده است:

  • اگر زمان و مسافت رانندگی دارید، میانگین سرعت را محاسبه کنید.

  • اگر درآمد و مقدار دارید، میانگین قیمت را محاسبه کنید.

  • اگر درآمد سالانه دارید، درصد تغییر در درآمد ایجاد کنید

  • اگر جمعیت سنی خاصی را بر اساس سال دارید، جمعیت هجده ساله امسال را از هفده ساله های سال گذشته کم کنید تا مهاجرت خالص به دست آید.

  • اگر داده‌های اهدایی دارید که ارزش‌های شدید بر آن غالب است، آن را در فضای گزارش قرار دهید.

شما عکس را دریافت می کنید. شما مانند یک رئیس اینجا ارزش اضافه می کنید.

به داده های طبقه بندی شده توجه زیادی داشته باشید – می تواند فوق العاده ارزشمند باشد. ایجاد دسته‌های جدید از متغیرهای پیوسته (بالا، متوسط ​​یا پایین) یا ادغام دسته‌های موجود اغلب منطقی است. گاهی اوقات لازم است گذشته را مجدداً دسته بندی کنید تا با تعاریف دسته بندی فعلی مطابقت داشته باشد. در مواقع دیگر باید هر چیزی را از 90 دسته به پنج ابر دسته گروه بندی کنید.

اجازه دهید سوال اولیه کسب و کار شما را راهنمایی کند، اما از بیرون رفتن از مشکل خاص نترسید. شهود خود را دنبال کنید. گاهی اوقات روندها یا خطاهایی را در این عناصر داده جدید شناسایی می کنید که در داده های خام آشکار نیستند.

هفته ها خواهد بود.

بالاخره یک مجموعه داده جمع آوری شده دارید. شما مسائل واضح را برطرف کرده اید و ایده بسیار خوبی از آنچه دارید دارید. الان میتونی مدلینگ رو شروع کنی؟

نه، حتی نزدیک نیست. شما فقط سطح پنج هستید. شما یک دریاچه کوچک از داده ها دارید، اما آب های آن شور است.

زمان شروع است کاوش در محتوای داده ها. این احتمالا طولانی‌ترین مرحله خواهد بود، اما دو چیز را انجام می‌دهد: تضمین می‌کند که هر متغیر (از جمله متغیرهای جدید شما) از نظر داخلی سازگار است، و تضمین می‌کند که روابط شما منطقی است.

به صورت بصری ادامه دهید. آمار خلاصه دوست شما نیست – آنها در واقع می توانند شما را گمراه کنند.

سازگاری داخلی از طریق هیستوگرام و موارد مشابه حاصل می شود. با ترسیم توزیع فرکانس برای هر متغیر، یک به یک شروع کنید. از نظر شکاف، قله یا انحراف با دقت به آنها نگاه کنید. گاهی اوقات یک توزیع نرمال یا لگ نرمال دریافت می کنید، گاهی اوقات یکنواخت می شود. قبل از اینکه نگاهی بیندازید، از خود بپرسید که چه چیزی را باید ببینید.

فرض کنید می خواهید مهاجرت خالص را بر اساس سن ترسیم کنید. انتظار دارید چه چیزی را ببینید؟ لباس فرم؟ شاید برخی تغییرات مرتبط با سن در اطراف دانشگاه؟



دیدگاهتان را بنویسید