در ایالات متحده بهار است، یعنی چیزی به اندازه پای سیب آمریکایی بازگشته است: بیسبال. و از آنجایی که انواع داده های عالی در مورد یکی از سرگرمی های عالی کشور وجود دارد، تصمیم گرفتیم برای پست این هفته به آمار حضور در لیگ برتر بیسبال (MLB) در 20 سال گذشته که در بسیاری از وب سایت ها منتشر شده است، نگاه کنیم. ما برای به دست آوردن داده هایی که در نمودارهای زیر می بینید استفاده می کردیم: ESPN.com.
برای جمعآوری دادههای حضور و غیاب از ESPN، از Jupyter Workspaces (در حال حاضر در نسخه بتا در Domo) و بسته Beautiful Soup Python برای تجزیه HTML استفاده کردیم. و از آنجایی که Domo اکنون میتواند کد را در Jupyter Workspaces برنامهریزی کند تا به طور منظم اجرا شود، میتوانید مطمئن باشید که این صفحه با دادههای ۲۰۲۲ بهروزرسانی خواهد شد.
اولین چیزی که احتمالاً هنگام نگاه کردن به داده ها متوجه خواهید شد این است که سال 2020 وجود ندارد. دلیلش این است که بیسبال امسال به دلیل همهگیری بدون هوادار بازی شد. در سال 2021 مقداری بازگشت به حالت عادی وجود داشت، اما تا این فصل بود که تمام محدودیتهای تماشا برداشته شد، بنابراین جالب است که ببینیم بازدیدکنندگان چگونه بهبود مییابند (اگرچه با شفافیت کامل، ما فقط دادههای سالهای کامل را در اختیار داریم. در این لحظه، بنابراین ما هیچ داده ای را که مربوط به فصلی بودن است، جمع آوری نمی کنیم، مانند اینکه زمان یا مکان یک تیم در مسابقه پلی آف چگونه بر فروش بلیط تأثیر می گذارد).
یک راه خوب برای مشاهده این داده ها با یکی از موارد مورد علاقه قدیمی بسیاری از دانشمندان داده است: نمودار جعبه و سبیل. نمودار حداقل و حداکثر میانگین حضور برای هر تیم را در “سبیل ها” (ردیف های بالا و پایین) نشان می دهد. من این را مرتب کرده ام تا تیمی را که بیشترین سال حضور در سمت چپ و کمترین سال حضور را در سمت راست دارد نشان دهد:
جایی که بصری برای من جالب تر می شود، عناصر جعبه است. هر کادر فاصله بین صدک های 25 و 75 را نشان می دهد که نشان می دهد میزان حضور یک تیم در طول سال ها چقدر تغییر کرده است. جعبههای بزرگتر به من میگویند که این تیمها (مانند فیلی و دیترویت) سالهای حضور عالی و سالهای نه چندان خوبی داشتهاند. جعبه های کوچکتر (مانند بوستون) می گویند که یک تیم در حضور بسیار ثابت است. ما همچنین نمودار را فقط برای سالهای قبل از همهگیری فیلتر کردیم، زیرا سال 2021 – و تا حدودی 2022 – دادهها را تغییر میدهد.
یک رویکرد جایگزین برای درک نحوه رتبه تیم ها در حضور، ایجاد شاخص هایی از رتبه های حضور یک تیم نسبت به میانگین کلی MLB است – که مستقیماً در زیر انجام داده ایم. جعبه های آبی تیره به این معنی است که یک تیم بسیار بالاتر از حد متوسط است، در حالی که جعبه های نارنجی تیره به این معنی است که یک تیم بسیار پایین تر از میانگین است. میتوانید از فیلترها برای مرور لیگ، بخش، تیم(ها) یا سال(های) مورد علاقه خود استفاده کنید:
کاربران طولانی مدت Domo ممکن است به این فهرست ها نگاه کنند و فکر کنند که من مقداری پیش محاسبه را در Magic ETL یا Dataset View انجام داده ام. درست است که انجام محاسبات در چنین سطوح عمومی معمولا نیاز به یک محاسبه اولیه اما اگر این کار را می کردم، حل کردن فیلتر سال سخت می شد. بنابراین، راز آشکار است: با حالتهای جدید حیوان ثابت Domo (در حال حاضر در نسخه بتا)، میتوانید ویژگیهایی با سطح جزئیات ثابت درست در حالت وحش ایجاد کنید. برای «شاخص به میانگین. لیگ این محاسبه است:
می بینید که اینجا دو چیز در جریان است. اول، وقتی SUM FIXED by League را دارم، سپس تمام مقادیر را با همان لیگ ردیفی که در آن قرار دارم جمع میکند. این به من امکان می دهد کل لیگ مورد نیاز خود را برای مخرج شاخص بدست بیاورم. دوم، از FILTER ALLOW استفاده می کند تا به Domo بگوید که فیلترهای سال می توانند بر عملکردهای FIXED تأثیر بگذارند. گزینه هایی برای ALLOW FILTER، DENY FILTER و DO NOT FILTER وجود دارد.
در اینجا آخرین نمونه از مفید بودن FIXED با FILTER DENY آورده شده است. نمودار میله ای زیر به طور پیش فرض برای نیویورک یانکیز (تیم مورد علاقه رئیس من) است. نمودار اول از FIXED استفاده نمیکند، بنابراین وقتی برای Yankees فیلتر میکنم، فیلدهای Min، Max و Median بیمعنی میشوند، زیرا فیلتر میشوند تا با تیم انتخاب شده یکسان باشند. نمودار دوم از FIXED و DENY در نام تیم استفاده می کند تا حداقل، حداکثر و میانه به عنوان ارجاع به میانگین زیربنایی، که برای یانکی ها است، باقی بمانند.
یکی از چیزهایی که در مورد کاوش داده های جدید دوست دارم – و گاهی اوقات دیوانه کننده می شوم – این است که همیشه چیزهای بیشتری برای کاوش وجود دارد. در حین کار روی این پست، متوجه شدم که گنجاندن رکوردهای برد/باخت تیم ها و همچنین اطلاعات ظرفیت استادیوم بسیار جالب خواهد بود. اما بعد فکر کردم: شاید آن را برای پست بعدی ذخیره کنیم.