IBM SPSS Modeler vs. Open Source Tools

ארגונים רבים מתקדמים לעולם ה Data Science. מגייסים מדעני נתונים ומתלבטים איך לממש את הפוטנציאל האדיר של ניתוח נתונים מתקדם. במאמר הבא נשאל את שאלת השאלות – מה נכון לארגון שלי: שימוש בכלים אנליטיים מסחריים כמו IBM SPSS Modeler או שימוש בקוד פתוח כמו R & Python

 

איך התפתח התפקיד הנחשק Data Scientists

פעם היו סטטיסטיקאים, אח"כ קראו להם חוקרים ואנליסטים ועכשיו הם נקראים Data Scientists.

פעם חישבו נוסחאות על הנייר או קודדו פקודות ואלגוריתמים מסובכים. אח"כ הגיע עידן של התוכנות המסחריות המובילות לאנליזה וכריית מידע, עם המימשק הידידותי לאנליסט העסקי. ועכשיו חוזרים לקודד.

ה- Data Scientists מעדיפים לקודד, לפתח אלגוריתמים ולהמציא את הגלגל. זה מרגש אותם ונותן להם סיפוקים מקצועיים. כך הם מרגישים יכולת שליטה בביטים ואין דבר שאינו אפשרי.

אולם, האם לכולם זה מתאים? האם זה כלכלי? האם המנהלים ומקבלי החלטות באירגונים יודעים להתמודד עם השאלות הללו?

מאמר זה ינסה לסייע בבחירה המתאימה לכל ארגון המתלבט בין שימוש בכלים אנליטיים מסחריים לבין השימוש בקוד פתוח.

לצורך העניין, המאמר יתמקד בהשוואה בין הכלי המסחרי IBM SPSS Modeler לבין השימוש בקוד פתוח כמו R & Python.

 

תהליך פיתוח פתרון אנליטי

ראשית, יש לזכור כי פיתוח פתרון אנליטי אינו רק שימוש באלגוריתם כזה או אחר. תהליך פיתוח פתרון אנליטי לאתגר עסקי, חייב לכלול את השלבים הבאים:

  • הבנה ואיפיון האתגר העסקי

  • מיפוי והבנת הנתונים הקיימים בארגון והרלוונטיים לפרויקט

  • ניקוי והכנת הנתונים הרלוונטיים לתצורה המתאימה לאנליזה

  • שימוש באלגוריתמים המתאימים לסוג השאלה המחקרית ולנתונים

  • תיקוף ומדידת איכות התוצרים

  • יישום התהליך האנליטי המחקרי כתהליך תפעולי יישומי בתוך מערכות הארגון

כל שלב משלבים אלו הוא חיוני וחייב להתבצע בצורה מקצועית מלאה.

לכל שלב משלבים אלו, יש כלים אנליטיים יעודיים. וכשם שדילוג על שלב מסויים עלול להכשיל את הפתרון, כך גם שימוש בכלים לא מספיקים, עלול להכשיל את הפתרון.

לכן, סביבת העבודה של מדען הנתונים חייבת לכלול כלים מובנים לכל שלב בתהליך.

 

הפלטפורמה האנליטית של IBM SPSS Modeler מושתתת על מתודולוגיה CRISP-DM המנחה כל שלב בתהליך הנ"ל ומכילה את הכלים האופטימלים. פיתוח ב- Open Source מצריך מהאנליסט לפתח בעצמו את הכלים לכל שלב.

פתרון אנליטי

כמו תהליך הפיתוח, כן גם הפתרון עצמו מורכב בדרך כלל מתהליכים שונים, כמו:

  • ההתחברות למקור/ות הנתונים ומיזוגם

  • בדיקת איכותם וטיובם

  • בחירת אוכלוסיות או מדגמים שונים

  • חישוב מדדים חדשים וטרנספורמציות שונות לנתונים

  • הפעלת אלגוריתמים שונים ובחינתם אמינותם על קבוצות ביקורת

  • ויזואליזציה של הנתונים והתוצאות

  • ייצוא התוצר הסופי למערכות האירגון והטמעתם באופן תפעולי מתוזמן או בזמן אמת

יש המבצעים תהליכים שונים בכלים שונים או בסביבות שונות. כגון, כל הטיפול המקדים בנתונים הם מבצעים בכלי ETL או ב- DB. את הויזואליזציה הם מבצעים בכלי ה- BI, ואח"כ יקודדו את הלוגיקה במערכות התפעוליות. מובן כי תנאי עבודה אלו הם גרועים, מקור לטעויות ולאיבוד זמן יקר.

תוכנת IBM SPSS Modeler הינה סביבת עבודה מלאה הנותנת מענה לכל התהליכים הנ"ל. זה מקל על האנליסט ומייעל את עבודתו. האנליסט מבצע הכל באותה סביבה, ובאותה סביבה בה הוא פיתח את המודלים הוא גם יריץ את היישום לאורך זמן כפתרון תפעולי.

סביבת הפיתוח: תיכנות או מימשק GUI

תנאי בסיסי להצלחת פיתוח פתרון אנליטי הוא שמפתח הפתרון יבין היטב את הפן העסקי – החל מהבנת הצורך והאתגר העסקי ועד לאופן מימוש הפתרון. ולכן, חשוב שהמפתח יהיה בעל אוריינטציה עסקית יותר מאשר טכנית. הוא לא מתכנת ולא DBA. הוא אנליסט עסקי שמזדהה עם המטרות העסקיות של הארגון, מבין את נתוני הארגון ומכיר את הטכנולוגיה האנליטית.

ולכן, יש יתרון מובהק לסביבת פיתוח ידידותית, ה"יודעת מראש" לאיזה כלים יזדקק האנליסט ומגישה לו את אותם כלים במימשק גרפי אינטואיטיבי. הוא לא יצטרך לחשוב על כל ההיבטים. מישהו כבר חשב עליהם והכין אותם כברירת מחדל.

לאנליסט רק נשאר להשתמש בקוביות המוכנות ולשבצם באופן שיביא פתרון מיטבי לבעיה העסקית שהוגדרה.

יתרונות מימשק GUI לעומת קידוד הם ברורים:

  • עקומת למידה נמוכה

  • כישורי האנליסט – לא נדרש ידע בתכנות. נדרשת יותר הבנה עסקית ואנליטית.

  • מובנות תוכניות הפיתוח – במימשק GUI קל יותר להבין את מה שאחרים פיתחו. וכאשר אנליסט עוזב את החברה, קל לאחרים להמשיך לעשות שימוש במה שהוא פיתח.

Time to Market

  • סביבת פיתוח מסחרית במימשק GUI המכילה את כל סט הכלים שהאנליסט צריך, מקצרת את זמן הפיתוח בסדרי גודל, וזה מאפשר להגיע לפתרון מעולה בלו"ז קצר בהרבה לעומת פיתוח בקוד.

  • וזה גם משפיע על ROI

תוכנה טובה מבית טוב

  • אין ספק כי תוכנה טובה מיצרן טוב אשר מתמקד במחקר ופיתוח התוכנה לאורך זמן רב, תכיל תמיד את כל הכלים המתחדשים לתמיכה בפלטפורמות וטכנולוגיות חדשות ובסוגי נתונים בפורמטים חדשים.

  • כך היא תוכנת IBM SPSS Modeler מבית יבמ. יבמ רואה באנליטיקה מנוע מרכזי לצמיחה עסקית ולכן היא משקיעה באופן רצוף ב- R&D של התוכנה כדי שתמיד תמשיך להוביל את עולם ה- Data Science.

שילוב קוד פתוח

  • תוכנת SPSS Modeler מאפשרת להנות מכל העולמות. כדי שה- Data Scientist לא ירגיש מוגבל ביכולות התוכנה המסחרית, התוכנה פתוחה לשילוב קוד פתוח ב- R, Python, Java, SPARK ועוד.

  • קיימת קהילת מדעני נתונים אשר מפתחים אלגוריתמים וכלים אנליטיים נוספים אשר מיועדים לשילוב ב- Modeler והתוכנה מאפשרת קידוד קוד פתוח בצורה אינטגרלית.

  • ולכן, האנליסט יכול להשתמש ב- 95% מצרכיו בכלים המובנים בתוכנה, ורק להשלים את היתרה במידת הצורך ע"י קוד פתוח.

אז למי זה כן מתאים

הייתי ממליץ להשתמש בקוד פתוח רק לחברות תוכנה המפתחות מוצרים אשר משלבים תוצרי אנליטיקה והאנליטיקה חייבת להיות embedded במוצר. הנימוקים הם:

  • חברת תוכנה – יודעת לנהל מפתחי תוכנה ומתודולוגיות פיתוח תוכנה.

  • כאשר תוצרי האנליטיקה משולבים במוצר – יש יתרון לקוד הפתוח ביכולת השילוב שלו עם שאר הקוד. לעומת כלי מסחרי בו האינטגרציה עשויה להיות מורכבת יותר.

  • לכל השאר אני ממליץ:

  • אל תמציאו את הגלגל. תתמקדו ב- core business שלכם בו אתם הכי טובים, ותהנו מכלים אנליטיים הטובים ביותר מהיצרן שאצלו האנליטיקה היא ה- core business.

  • תהנו מכלים אנליטיים אשר מאפשרים לכם להתמקד במטרות העסקיות של האנליטיקה, במקום בטכניקה. תתמקדו ב"מה" ולא ב"איך".

  • עלות התוכנה למול עלות הפיתוח ROI, במונחים של כסף וזמן, בדרך כלל יהיו לטובת התוכנה המסחרית.

נכתב על ידי חזי הבר מנכ"ל ג'ניוס