מליוני קבצים ב-NTFS

דברים שלמדתי בדרך הקשה:

  • אל תאמינו ללקוח שאומר לכם שיש "רק כמה עשרות אלפים", תבדקו לבד כדי לוודא.
  • לא להעיז לעשות דיפראג, עדיף לגבות ולשחזר, תאמינו לי שזה לוקח פחות זמן.
  • לא winrar ולא 7zip יצליחו לגבות יותר מ400K קבצים פחות או יותר. אם יש לכם יותר מזה אז לא להתעצל, לפתוח חלון Cygwin ולדחוס איזה TBZ בריא.
  • האיטיות תהיה הרבה יותר גרועה ממה שאתם חושבים, לפעמים פאקטור X5 על כל הערכה, וזה יהיה אופטימי. אני לא צוחק.
  • כדי לשפר את המצב, כבו זמנית על אותה תחנה או שרת את האנטיוירוס.
  • כשאתם מפרמטים את המחיצה מחדש זה מאוד מפתה לחשוב שיחידות 4K זה בזבזני וכדאי לרדת לקלאסטרים בגודל סקטור – טעות. אל תתנו לזה לקרות לכם. השארו עם ברירת המחדל.
  • כשאתם משחזרים את הTBZ עם 10 מליון קבצים, ודאו שהאנטיוירוס המזורגג לא הפעיל את עצמו מחדש בלי לשאול אתכם.
  • כשאתם משחזרים 10 מליון קבצים מ-TBZ ודאו מההתחלה שהUMASK שלכם הוא 0 ולא 0022 או משהו מעצבן דומה. זה סיוט לשנות מחדש את כל ההרשאות דרך הGUI, לא מצאתי בדיוק איך לעשות את זה רשמית ב-CLI ונראה שפקודת chmod רקורסיבית ב-Cygwin עושה רק חלק מהעבודה.
  • בכלל, זכרו שבניגוד ל"עצים רוקדים" ושלל שכלולים חכמים בFS שאתם רגילים בלינוקס, NTFS זו מערכת מפגרת שעובדת ב-linked lists פשוטים, משמע מציאת קובץ בספריה הוא (o(n ולכן מציאת המטא-דאטה שלו היא (O(n2, אם לא נזהרים. האנס רייזר אולי פסיכופת אבל הוא גם גאון.
  • עוד דבר חשוב – לא רק שהאינדקס של כל ספריה הוא לינארי, הוא בעצם קובץ שעשוי להתחרפן אם הוא חוטף פראגמנטציה, וכלי הדיפראג של חלונות לא מאחה אותו! בשביל זה מוחבא כלי אחר ב-MSDN בשם contig. למה? ככה. קסנם מיקרוסופט. עוד סיבה להשאר עם קלאסטרים גדולים.
  • יש כמה דברים שראוי לעשות לפני הכל ומראש כי עצוב לגלות אותם בסוף, כולל כל הטוויקים להתנהגות מערכת הקבצים (למשל איזה כיף לגלות שאפשר לכבות יצירת שמות 8.3 אוטומטית – למה זו לא ברירת המחדל, אינעל OS תבעק?)
  • ובכלל, מדי פעם שיעורי בית זה לא מזיק. אפשר ללמוד המון מאחרים.
  • לבסוף, להסביר בנימוס ללקוח שאלפי קבצים בספריה זה נחמד אבל הביצועים יפלו עם עשרות ומאות אלפים, בשביל זה אלוהימה המציאה את ההאשים.

ציינתי כבר שאני שונא לנהל מערכות של מיקיסופט?

סוף סוף, התנ"ך חופשי!

לפני כמה שנים המקור היחידי לתנ"ך מנוקד ומוטעם היה את מכון ממרה אבל ברשיון מגביל שהטריד אנשים בקהילה החופשית ואני בינהם. היום נתקלתי במקרה בעובדה המרעננת שלצד פירושים כמו רש"י התנ"ך מופיע במלואו בויקיטקסט שבתורו מובא מתוך האתר הזה, שמחלק את כל התנ"ך המוקלד ללא הגבלות רשיון (ברשות הכלל) ואם תרצו להוריד ולהתקין את השרת שעליו הוא רץ עם תכניו, התוכנה כוללת חלקים GPL, חלקים CC-by-nc ואולי רשיונות אחרים, עדיין, חופשיים למדי.

כדי לצפות בטקסט האתר ממליץ על פרנק ריהל של פרויקט קולמוס הפתוח ליוניקס:
וְגַ֗ם עִירָא֙ הַיָּ֣אִרִ֔י הָיָ֥ה כֹהֵ֖ן לְדָוִֽד (שמוליק ב', כ':26)

ההמלצה למשתמשי מאק הוא פונט "רעננה" (אינני יודע מה הרשיון):
עִירָא֙ הַיִּתְרִ֔י גָּרֵ֖ב הַיִּתְרִֽי (שמוליק ב', כ"ג:38)

ואילו לחלונות אפשר לבחור בין Ezra SILרשיון פתוח תואם OSD ואפילו DFSG!):
שְׁנֵ֥י שָׁדַ֛יִךְ כִּשְׁנֵ֥י עֳפָרִ֖ים תְּאוֹמֵ֣י צְבִיָּ֑ה הָרוֹעִ֖ים בַּשּׁוֹשַׁנִּֽים (שיר השירים, ד':5)

ובין SBL Hebrew המעוצב יותר מודרני, מרנדר טעמים יותר יפה אך מופץ ברשיון חינם לשימושים בלתי מסחריים בלבד של SBL:
חֶ֚לֶץ הַפַּלְטִ֔י עִירָ֥א בֶן־עִקֵּ֖שׁ הַתְּקוֹעִֽי (שמוליק ב', כ"ג:26)

לבדיקות נוספות של רינדור, אנא פנו אל העמוד הזה.

קוריוז לגבי הציטוט האחרון – התראיינתי פעם לעבודה אצל ירושלמי בשם עירא פלטי, שנקרא על שם אותו הפסוק. המענין הוא שאביו, ד"ר פלטי, היה המיילד שיילד אותי. עירא פלטי גדול ממני בכמה שנים, אבל לאמי לא היה מושג כשבחרה לי את השם וגילתה את זה רק מאוחר יותר. מה הסיכוי?

הפוסט הזה מוקדש לשפות הנכחדות יום-יום מסביב לעולם, השבוע נפטרו דובריה האחרונים של שפת הבו באיי אנדמן.

חדשות הפרטיות #68

אני לא באמת סופר, אני אפילו מעריך כלפי מטה בשמרנות…

עוד מעט קרחתהיום נשלח הרשיון שלי בדואר סוף סוף. לא היתה לי סבלנות להמשיך לתחזק זקן, אז החלטתי שאני לא צריך לחכות לעד לדפוס בארי/משרד התחבולה והלכתי למ.מ.ס.י., אחת החברות האזרחיות הרבות המחזיקות בגישה למאגר. כך הלכתי להדפיס רשיון בינלאומי על חתיכת קרטון בשווי 15 ש"ח, ולכן אני סוף סוף מגולח וכמעט סיימנו את הסרט. המשך בקרוב, אני מקווה.

יוחאי דיווח פה שחברת טלדור כן עושה שימוש ביומטרי במאגר משרד התחבורה, מה שלא מפתיע, רק חיפשנו הוכחות לזה. אבל פרס הפרטיות לשבוע הזה מוענק בזו לעריית רמת-גן שמכרה כתובות ופרטים אישיים של תלמידיה לחברת "קידום" שמפעילה בתי ספר אקסטרניים. אני לא יודע אם האצבע המשולשת שלהם מופנה כרגע יותר לחוק הגנת הפרטיות, חוק הגנת הילד או שמא מערכת החינוך הממלכתי הגוססת, אבל הם בהחלט מפגינים הרבה מאוד בייצים. מצד שני העיריה כגוף קיבלה קנס סמלי של 5000 ש"ח, אבל ביננו, אני לא מאמין שמישהו ינזף על זה אפילו, לא כל שכן יקנס אישית או יעצר. "קידום" קיבלו קנס של 1000 ש"ח בלבד. סכום זעום ומגוחך לרשימה כל כך מבוקשת וטיפה בים הוצאות השיווק שלהם…

פרטיות עלתה גם על סדר היום במשפחה הקרובה לי שבה האם מתנגדת לפתיחת פייסבוק לבנה בן ה-10 אבל אביו עזר לו לפתוח אחד בכל מקרה. לא משנה שזה עובר על תנאי השימוש באתר ואולי על חוקי מדינה ישראליים ואמריקניים – הילד רצה פארמוויל ולא תזיזו אותו משם. שני ההורים אנשי מחשבים אינטיליגנטיים, איך אפשר לחנך את הילד כשאי אפשר להסביר לאב מה הבעיה במה שקרה פה? לפחות הילד הוא תולעת ספרים ולא יצליחו לבלבל אותו עם העברית החדשה של פייסבוק – בשבוע שעבר קראתי שאחוזים מטרידים מתלמידי בית הספר היסודי מתחילים לכתוב בבי"ס חיבורים עם סימני שאלה בתחילת משפטים במקום בסופם, חקירה גילתה שהאשמה היא בפייסבוק (שלא אמור להיות נגיש להם) וה-CSS שלו, שלא מותאם לימין-לשמאל.

לבסוף אחרי שחילקתי פרסי פרטיות, הנה פרס אחר לא קשור, אבל מחולק גם הוא לאנשים שעשו לילות כימים לאמלל את חיינו, פרס הדינאמיט להצטיינות בכלכלה. פרידמן, סאמרז, גרישפאן וידועים פחות מועמדים לפרס. לא תצביעו?

עדכון: ואיך שכחתי? גוגל חוזרים לכותרות, נראה שגוגל-באר, התוסף שכל חברי חושבים שאני פסיכי שאני לא מתקין, ממשיך לרגל אחרי הגלישה שלך גם אחרי שאמרת לו לחדול מזה. השבוע ראיתי שגם diigo עושים דבר דומה, החברה שלי גלשה לחשבון הבנק שלה, והסיידבאר שמח לספר לה אילו עוד אנשים (ארבעה ישראלים בשמם המלא) בודקים גם הם בדיוק כרגע את מצב העו"ש… למישהו יש המלצה לשירות סימניות חברתי שתומך ב"קבוצות מחקר" ולא מרגל אחריך בזמנו הפנוי?

עוד תשובות מיורם אורן

במשך הדיאלוג ביני ובין יורם אורן, יועץ משרד הפנים בנושא התעודות החכמות. אתם מוזמנים להוסיף שאלות ואפנה אותן אליו.

החלק הקודם פורסם כאן, קחו רק לתשומת הלב את האזהרה שפירסמתי.

בתשובה לשאלותי לגבי האמון הפגוע של משרד הפנים (דליפת מרשם האוכלוסין, פנקס הבוחרים ועוד מאגרים) והעובדה שאין להם איש במ"מ קבוע:

לגבי ממונה במ"מ במשה"פ – נכון שאין מינוי רשמי אבל זה לא אומר שאין עבודה בנושא, ואפילו עבודה אינטנסיבית. בכמה שנים האחרונות שאני מכיר את המשרד הוא עשה קפיצת מדרגה רצינית, בסיוע צמוד של רא"מ ועם אנשים מאד מקצועיים שעוסקים בזה. אני מתאר לעצמי שיהיה מי שיקפוץ ויגיד שמרשם האוכלוסין בכל זאת דלף משם אבל זה שוב משהו לא נכון. מרשם האוכלוסין מכיל הרבה פרטים נוספים שלא דלפו, והדליפה הייתה מלקוחות של המרשם שמקבלים אותו על פי חוק. אני הראשון שישמח אם יצמצמו אליו את הגישה בחוק.

בראיון אמר לי ביהם שהשב"כ והמוסד עצמם לא משתמשים בביומטריה כי אינם סומכים עליה, יורם אורן טוען שהוא יודע מידע אישי את ההפך. הצעתי שזו הסיבה שחייבים לקיים דיבייט גלוי ולפרסם עובדות.

בנושא ההסכמה על עובדות – זו הגדרה מעניינת להשערות/הנחות/המצאות/מחשבות. לגבי הצורך בדיאלוג/דיבייט – בהחלט מוסכם, אם יהיה מי שיעשה את זה מצד משה"פ באופן שוטף.

אז מתי יפורסמו ההליכים, החומרות ושאר מרכיבי המערכת? אחרי שיוזמנו ויותקנו?

למה מסמכים אינם מפורסמים? יש המון סיבות אבל אציין רק אחת כחומר למחשבה. זה שאתה מתעניין ורוצה לדעת מתוך מעורבות אזרחית זה מאד יפה וראוי להערכה, אבל יש הרבה (בעצם הרבה יותר) שירצו לדעת מתוך מניעים מסחריים. כבר הדפנו כמה ניסיונות כאלו. לתת למישהו יתרון זה בעייתי מאד מבחינת חוק המכרזים. גם פרסום לכולם זה בעייתי וגורר הרבה תגובות שאינן ענייניות ונועדו רק להפגין כמה המגיב חכם וכמה המפרסמים טיפשים. מעטים באמת מתייחסים בצורה עניינית, נטולת אינטרס מסחרי. השמירה על פרופיל נמוך ואפילו על "ערפל" מכוון עד לשלבי המכרזים המעשיים מנעה עד כה הרבה ניסיונות של גורמים עסקיים להשפיע על מהלך העניינים. זה כל הזמן הליכה בין הטיפות אבל זה מאד מוכיח את עצמו. כיום גורמים עסקיים שונים רק מנחשים מה תהיינה הדרישות שלנו בכל מיני דברים ואפילו משחררים בלוני ניסוי בתקשורת כדי לנסות ולדלות מידע שיועיל להם. לצערי העיתונאים של היום מתמסרים ברצון לדברים כאלו אבל זה מה שיש. בשורה התחתונה – שמירת הפרופיל הנמוך היא הכרח בל יגונה.

שאלתי גם לגבי key-loggers:

קי לוגרים זה בעיה שאיננה ייחודית לשימוש בכרטיס חכם אלא לשימוש במחשב בכלל. במקרה של כרטיס חכם יש כמה גישות לכך. הגישה הקלאסית אומרת שיש להשתמש בקורא עם PIN PAD המאפשר להזין את ה-PIN ישירות לכרטיס בלי שהוא יעבור את המחשב. יש קוראים כאלו ויש כאלה אפילו עם הסמכה לפי CC. החיסרון הוא במחיר היקר בהרבה ובכך שצריך לבדוק אם אי אפשר לטעון להם קושחה זדונית, כך שהבעיה פשוט עברה למקום אחר.
הגישה השנייה היא לייצר תהליך אינטראקטיבי שבו המשתמש בכרטיס מקבל משוב בצורת CAPTCHA. משוב זה כולל פרטים על מה שהוא חתם יחד עם בקשה להקיש משהו (ספרה/אות בודדת למשהו פשוט וצירוף אם זו פעולה כבדה שהרבה כסף בצידה). בצורה כזו גם אם המחשב נגוע או שהותקן בו קי לוגר חומרתי שלא ניתן לגילוי אז מה שהתוקף יכול לעשות זה רק לשלוח את זה למזלום בכפר בניגריה שמתפרנס מלפתור קפצ'ות למחייתו. זה ברוב המקרים מחיר בלתי נסבל מבחינת התוקף, מה גם שהמזלום צריך לדעת עברית (security by obscurity במיטבו…). זה לא פיתרון מלא אבל זה משהו שכן מאפשר לחיות עם זה כסיכון מחושב. אם מישהו השיג את ה-PIN שלך הוא עדיין צריך את הכרטיס שאצלך בארנק או לחכות שתבצע איתו משהו על המחשב הנגוע, כדי להלביש על זה עוד משהו. יש גם את ההיבט המשפטי, ואם נעשתה פעולה בלי ידיעתך זה הופך לנושא של דיני ראיות. כאמור זה לא ייחודי לכרטיס אלא רלבנטי לכל פעולה ממוחשבת וגם לא ממוחשבת שאינך שולט בכל התהליך.

וחזרה לשאלת השאלות – פרופסור ביהם טוען בצדק שתעודות ביומטריות הן אולי רע הכרחי, אבל עדיפות עליהן תעודות חכמות פשוטות יותר עם הגנה על הפלאסטיק מפני נסיון להחלפת התמונה המודפסת. הדפסת התמונה שם משמעה שיש מאגר תמונות מופחתות.

למה ביומטריה ולא רק כרטיס חכם? נדמה לי שדשנו בזה לא מעט. אם זה קל יחסית לקבל תעודה לגמרי אמיתית בהרכשה כפולה אז כרטיס שאיננו בר זיוף לא עונה לצורך ואפילו מחריף את המצב. האמירה שניתן לבטל כרטיס מניחה שנעשה בו שימוש רק מול מערכות מחשוב. במציאות המון שימושים של התיעוד מתבססים על הצגתו בלבד וכאן רשימת תעודות מבוטלות לא עוזרת.
אנחנו משאירים עקבות אלקטרוניים בכל מקום, אלא אם נחזור הרבה שנים אחורה ונוותר על הרבה דברים שהם חלק מהיום-יום שלנו. נשאלת השאלה מה עדיף – צבר הולך וגדל של מידע עלינו ללא פיקוח וללא רגולציה בשיטת המערב הפרוע או משהו מצומצם, מוגדר ו"רזה" מבחינת מה שהוא מספק, עם רגולציה מחמירה ועם פיקוח.

אני לא מסכים איתו כמובן. אדם שתעודתו מבוטלת "מרחוק" ע"י מתחזה יקבל הודעה הביתה בצורת גלויה שתודיע לו שביום, מקום ושעה כך וכך התייצב אדם וביטל את התעודה הקודמת שלו, ואם זה לא נכון אז שייתור מיד קשר עם המשרד.

לשאלת השימוש הלא-אלקטרוני בתעודה שיקשה על גילוי תעודות מבוטלות אני יכול רק להגיד – אז מה התועלת שבביומטריה לעזאזל? אף אחד לא יעצור אדם עם תעודה מזויפת ממילא. אני עדיין בדיעה שאין הצדקה כלכלית ובטיחותית להוסיף ביומטריה לתעודות כשהסכנה שמנגד כל כך גדולה.

Caveat emptor

(למתקשים בלטינית, משמעות הכותרת היא פחות או יותר "אזהרה לציבור הלקוחות", מה שבשנים האחרונות מבלבלים עם "גילוי נאות" או אחיו הקרובים יותר "כתב ויתור אחריות" או "דיסקליימר")

אזהרה: אין לראות בפוסט הקודם כל מדריך או מידע אמיתי. מדובר ברצונו הטוב של יועץ עצמאי למשרד הפנים, המידע שהובא שם איננו מסמך רשמי של הממשלה, הוא איננו תשובה רשמית או לא רשמית של גורם ממשלה, הוא מידע שאינו סופי לפי הידוע לי, ולאחרונה הגיעו לאוזני שמועות מכמה כיוונים עליהם אני סומך, שלא ברור אפילו אם משרד הפנים יהיה זה שיישם את המאגר או שמא יופקע מידיו לרא"ם (השב"כ). תגובתו של מר אורן לשאלתי על הסיפור:

זה ששמעת על זה גם מXXX וגם מYYY זה מפתיע שבעתיים, אבל עדיין לא עושה את זה נכון. יתכן ששמעו חצאי דברים בנוסח "ראמ ינחו את הרשות והמאגר" ובהעדר דיאלוג שוטף פירשו את זה לא נכון. אני מודע לכך וגם מצר על זה שאין יותר מידע מפורסם, אבל אמרתי כבר בהתחלה שלהתעסק עם פרסום המידע זה הרבה מעל לכוחותינו. יש בפרויקטים האלו מספיק עבודה טכנית אמיתית, שזה המיקוד של כל הקבוצה הקטנה מאד שעוסקת בזה.
[…]
לגבי זה שזה רק משאלות לב ולא הפרויקט הסופי – נכון שזה עדיין בתהליך ונכון שיש דברים שאינם סופיים, אבל מה שנאמר לך מייצג לא רע את מה שיהיה. כל מה שנאמר על הכרטיס הוא מדויק לגמרי ואם לא יפתיעו אותנו בחקיקה אז זה גם סופי בהחלט. לגבי המאגר עדיין יש דברים לא סופיים אבל כל מה שנאמר עד כה נכון ויציב. יש כמה דברים שהם בגדר המלצות אבל הסבירות שהן תתקבלנה היא גבוהה מאד.

אזהרה: בקרוב תוגש הצעת חוק מלחמה בטרור ולא ברור עדיין מה הוא כולל. נכון לעכשיון התפרסם בעיקר שהוא מחמיר את העונשים על פעילות טרור, אבל ידיעה פיצפונת בידיעות המודפס אומרת שהוא מכניס שינויים בכ-1000 חוקים אחרים "בסגנון USA-PATRIOT האמריקני" ושעל הכנתו עמלו 3 שנים. אני מפחד שהוא עלול להיות יותר מאשר תיקון עונשי מאסר מ-30 ל-40 שנה וזוטות דומות. למי שלא מכיר את המפלץ שנקרא USA-PATRIOT act, כתבתי עליו פה בעבר. מדובר ב"פאטץ'" ענקי שמשנה למעלה ממתאיים חוקים אמריקניים עד כדי חדירה מפחידה לפרטיות ועבירות על מגילת זכויות האזרח. למרות זאת (ולמרות שאזרחים חפים נפגעו ממנו כבר לא פעם), תוקפו חודש מספר פעמים בארה"ב. בקרוב אצלנו?

אזהרה: חוקרים פרטיים מאשררים – בתנאים מסויימים אפשר לעשות סקימינג לדרכונים.

אזהרה: שימו לב לבעיות הפרטיות המובנות בכרטיסים החדשים של אוטובוסי דן.

אזהרה: הבנקים מגשימים בעמלות. זה לא חדש אבל יש עכשיו קמפיין מאורגן, אולי תרצו להצטרף?

אזהרה: הסינים אומרים שדיקור סיני זה טיפול דמה שנותנים רק לחולים נודניקים כדי שירגישו שנותנים להם צומי.

אזהרה: נתגלו טעויות בטבלה המחזורית שאולי תלויה לכם על הקיר. פאדיחות.

אזהרה: מקורות החדשות שלכם עלולים להכיל אוויר חם בכמויות מסוכנות. הם גם ממהרים לסלף ממצאים מדעיים ולעוות אותם (הנה עדכון על האייטם האחרון). מטריד מאוד לנוכח, למשל, בעיות ההסברה של שינוי האקלים הגלובאלי. בשבוע שעבר בילינו 3 שעות מעניינות בלשכתו של אלי ביהם ושמענו ממנו קצת על הצרות העיתונאיות שרדפו אחריו מאז ששם את פניו ברגע לא מתוכנן במרכז המאבק כששוכנע לעלות לדבר נגד החוק ברחבת הסינמטק, וכרגיל אין חדש תחת השמש, העיתונות הישראלית כתבה על הדיקן שהוא דוקטוראנט, שהוא מאסטראנט, ובפרסום אחד אמרו שהוא בכלל חוקר פרטי שעזב את האקדמיה. כל זה בלי קשר לרשימת השטויות שלרוב מתרחקות ב"ציטוטים" שבכתבות מהאמת.

אזהרה: גוגל שוב מפשלים בעמידה בעקרונותיהם הנעלים, ולשם שינוי זה כבר לא נראה כמו טעות. כשאתר כמו יוטיוב מפלה נגד דפדפנים חופשיים (כולל כרומיום לבית גוגל, אביו הרוחני של כרום), יש כאן סיבה להפעיל חשדנות.

אזהרה: נשים מסוגלות לחוש פחד מרחוק. או יותר נכון, מורות שחרדות ממתמטיקה מעבירות בצורה לא מודעת את החרדה לתלמידותיהן.

ראו הוזהרתן.