ارقام Ballpark: تجزیه و تحلیل حضور و غیاب بیسبال MLB


در ایالات متحده بهار است، یعنی چیزی به اندازه پای سیب آمریکایی بازگشته است: بیسبال. و از آنجایی که انواع داده های عالی در مورد یکی از سرگرمی های عالی کشور وجود دارد، تصمیم گرفتیم برای پست این هفته به آمار حضور در لیگ برتر بیسبال (MLB) در 20 سال گذشته که در بسیاری از وب سایت ها منتشر شده است، نگاه کنیم. ما برای به دست آوردن داده هایی که در نمودارهای زیر می بینید استفاده می کردیم: ESPN.com.

برای جمع‌آوری داده‌های حضور و غیاب از ESPN، از Jupyter Workspaces (در حال حاضر در نسخه بتا در Domo) و بسته Beautiful Soup Python برای تجزیه HTML استفاده کردیم. و از آنجایی که Domo اکنون می‌تواند کد را در Jupyter Workspaces برنامه‌ریزی کند تا به طور منظم اجرا شود، می‌توانید مطمئن باشید که این صفحه با داده‌های ۲۰۲۲ به‌روزرسانی خواهد شد.

اولین چیزی که احتمالاً هنگام نگاه کردن به داده ها متوجه خواهید شد این است که سال 2020 وجود ندارد. دلیلش این است که بیسبال امسال به دلیل همه‌گیری بدون هوادار بازی شد. در سال 2021 مقداری بازگشت به حالت عادی وجود داشت، اما تا این فصل بود که تمام محدودیت‌های تماشا برداشته شد، بنابراین جالب است که ببینیم بازدیدکنندگان چگونه بهبود می‌یابند (اگرچه با شفافیت کامل، ما فقط داده‌های سال‌های کامل را در اختیار داریم. در این لحظه، بنابراین ما هیچ داده ای را که مربوط به فصلی بودن است، جمع آوری نمی کنیم، مانند اینکه زمان یا مکان یک تیم در مسابقه پلی آف چگونه بر فروش بلیط تأثیر می گذارد).

یک راه خوب برای مشاهده این داده ها با یکی از موارد مورد علاقه قدیمی بسیاری از دانشمندان داده است: نمودار جعبه و سبیل. نمودار حداقل و حداکثر میانگین حضور برای هر تیم را در “سبیل ها” (ردیف های بالا و پایین) نشان می دهد. من این را مرتب کرده ام تا تیمی را که بیشترین سال حضور در سمت چپ و کمترین سال حضور را در سمت راست دارد نشان دهد:

جایی که بصری برای من جالب تر می شود، عناصر جعبه است. هر کادر فاصله بین صدک های 25 و 75 را نشان می دهد که نشان می دهد میزان حضور یک تیم در طول سال ها چقدر تغییر کرده است. جعبه‌های بزرگتر به من می‌گویند که این تیم‌ها (مانند فیلی و دیترویت) سال‌های حضور عالی و سال‌های نه چندان خوبی داشته‌اند. جعبه های کوچکتر (مانند بوستون) می گویند که یک تیم در حضور بسیار ثابت است. ما همچنین نمودار را فقط برای سال‌های قبل از همه‌گیری فیلتر کردیم، زیرا سال 2021 – و تا حدودی 2022 – داده‌ها را تغییر می‌دهد.

یک رویکرد جایگزین برای درک نحوه رتبه تیم ها در حضور، ایجاد شاخص هایی از رتبه های حضور یک تیم نسبت به میانگین کلی MLB است – که مستقیماً در زیر انجام داده ایم. جعبه های آبی تیره به این معنی است که یک تیم بسیار بالاتر از حد متوسط ​​است، در حالی که جعبه های نارنجی تیره به این معنی است که یک تیم بسیار پایین تر از میانگین است. می‌توانید از فیلترها برای مرور لیگ، بخش، تیم(ها) یا سال(های) مورد علاقه خود استفاده کنید:

کاربران طولانی مدت Domo ممکن است به این فهرست ها نگاه کنند و فکر کنند که من مقداری پیش محاسبه را در Magic ETL یا Dataset View انجام داده ام. درست است که انجام محاسبات در چنین سطوح عمومی معمولا نیاز به یک محاسبه اولیه اما اگر این کار را می کردم، حل کردن فیلتر سال سخت می شد. بنابراین، راز آشکار است: با حالت‌های جدید حیوان ثابت Domo (در حال حاضر در نسخه بتا)، می‌توانید ویژگی‌هایی با سطح جزئیات ثابت درست در حالت وحش ایجاد کنید. برای «شاخص به میانگین. لیگ این محاسبه است:

می بینید که اینجا دو چیز در جریان است. اول، وقتی SUM FIXED by League را دارم، سپس تمام مقادیر را با همان لیگ ردیفی که در آن قرار دارم جمع می‌کند. این به من امکان می دهد کل لیگ مورد نیاز خود را برای مخرج شاخص بدست بیاورم. دوم، از FILTER ALLOW استفاده می کند تا به Domo بگوید که فیلترهای سال می توانند بر عملکردهای FIXED تأثیر بگذارند. گزینه هایی برای ALLOW FILTER، DENY FILTER و DO NOT FILTER وجود دارد.

در اینجا آخرین نمونه از مفید بودن FIXED با FILTER DENY آورده شده است. نمودار میله ای زیر به طور پیش فرض برای نیویورک یانکیز (تیم مورد علاقه رئیس من) است. نمودار اول از FIXED استفاده نمی‌کند، بنابراین وقتی برای Yankees فیلتر می‌کنم، فیلدهای Min، Max و Median بی‌معنی می‌شوند، زیرا فیلتر می‌شوند تا با تیم انتخاب شده یکسان باشند. نمودار دوم از FIXED و DENY در نام تیم استفاده می کند تا حداقل، حداکثر و میانه به عنوان ارجاع به میانگین زیربنایی، که برای یانکی ها است، باقی بمانند.

یکی از چیزهایی که در مورد کاوش داده های جدید دوست دارم – و گاهی اوقات دیوانه کننده می شوم – این است که همیشه چیزهای بیشتری برای کاوش وجود دارد. در حین کار روی این پست، متوجه شدم که گنجاندن رکوردهای برد/باخت تیم ها و همچنین اطلاعات ظرفیت استادیوم بسیار جالب خواهد بود. اما بعد فکر کردم: شاید آن را برای پست بعدی ذخیره کنیم.




دیدگاهتان را بنویسید