Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

שיפורי עיצוב + שילוב מודל AI #16

Merged
merged 33 commits into from
Oct 25, 2024
Merged

שיפורי עיצוב + שילוב מודל AI #16

merged 33 commits into from
Oct 25, 2024

Conversation

NHLOCAL
Copy link
Owner

@NHLOCAL NHLOCAL commented Oct 25, 2024

עיצוב מחדש

  • התוכנה עוצבה מחדש עם מראה נקי ומאיר עיניים
  • נוספו הסברים מתומצתים עבור אפשרויות המיון
  • נוספה עזרה מורחבת ומשופרת עם תמונות מצורפות - מומלץ לבדוק!

מיון באמצעות AI

  • לאחר עבודה עצומה, שולב בתוכנה מודל בינה מלאכותית מתקדם לצורך שיפור הדיוק והרחבת המיון. שילוב המודל מגדיל את משקל התוכנה משמעותית - אבל זה שווה!
  • התכונה לא זמינה לעת עתה באנדרואיד

שיפורים נוספים

  • ניקוי שמות קבצים משופר
  • טעינה מהירה יותר של האפליקציה באנדרואיד
  • זיהוי משופר בין תיקיות אלבום לתיקיות סינגלים

NHLOCAL and others added 30 commits September 22, 2024 05:56
- העברת בדיקת עדכון גרסה לאחר טעינת התצוגה, לטעינה מהירה ויעילה יותר
- הסרת הצהרות משתנים גלובליים מיותרות
* Create ‏‏מסמך טקסט חדש.txt

* Delete ‏‏מסמך טקסט חדש.txt

* מודל מורחב מעודכן

* Update try_model.py

* Update f1score.py

* Update try_model.py

* נסיונות

* מודל מעודכן

* שדרוג יצירת מערך נתונים ועוד

* Revert "שדרוג יצירת מערך נתונים ועוד"

This reverts commit 1d1176d.

* עדכונים ושיפורים קטנים

* פעולות גיטהאב

* rename

* Update update_Training.yml

* Update update_Training.yml

* עדכון זרימת עבודה

* Update custom_ner_model1

* סדרת שיפורים

* Update try_model.py

* שיפור והסרת תוכן ישן

* Update update_Training.yml

* Create Synthetic_data.json

* נתונים סינטטיים לאימון

* Update update_Training.yml

* עדכון לקוד ריצה

* Update custom_ner_model10git

* Update create_ner_model_git_json.py

* ניסיון

* Update singers_list.csv

* Update singers_list.csv

* בניית נתוני אימון משודרגים

* מיון

* סדר, רשימת JSON מעודכנת

* אימון מודל

* שינוי שם

* מערך נתונים משופר עם שמות זמרים אקראיים

* Update custom_ner_model12git

* מערך נתונים מעודכן וגדול יותר

* Update custom_ner_model13git

* הגדלה משמעותית של מערך הנתונים

* Update custom_ner_model14git

* ניקוי ושיפור מהותי של הדאטה

* עדכון מערך נתונים JSON

* עדכון סופי עבור אימון

* תיקונים ושיפורים נוספים

* תיקון סופי

* Update custom_ner_model15git

* הסרת כפולים

* הסר מיותרים

* הכפלת רשימת הזמרים פי 3

* Update custom_ner_model16git

* הגדלת מספר האיטרציות

* Update custom_ner_model17git

* הגדלת רשימת זמרים עם רנדומליות משודרגת

שיפור משמעותי של הרנדומליה
כעת יתווספו זמרים רבים שהושמטו מקורפוס הנתונים

* Update custom_ner_model18git

* מבחן F1 משופר

* תיקון והוספת זמרים, גרף איטרציות

* Update custom_ner_model19git

* שדרוג ציון f1, רנדומליות משודרגת מאוד

שדרוג רנדומליות משמעותי. מאזן את קורפוס הנתונים ומוסיף זמרים רבים שהושמטו

* Update custom_ner_model20git

* מחיקת מודלים ישנים

* הוספת אלפי זמרים

* Update creating_model_git.py

* Update custom_ner_mode21git

* שיפור ויעול f1 score

* עדכון

* הוספת אלפי שירים, שיפור רנדומליות

* Update custom_ner_model22git

* ניסוי הצגת גרף

* ניסוי 2

* Update custom_ner_model22-0git and iteration_data.json

* ניסוי גרף 2

* ניסוי 3

* Update custom_ner_model22-1git including iteration_data.json

* שינוי טוקנייזר - ניסוי

* Update custom_ner_model22-2git including iteration_data.json

* תיקון ועדכון טוקנייזר

* Update creating_model_git.py

* Update model_name.txt

* Update custom_ner_model22-3git including iteration_data.json

* תיקון טוקנייזר

* Update custom_ner_model22-4git including iteration_data.json

* הרחבת טוקניזטור

* שיפור טוקניזציה

* Update custom_ner_model22-5git including iteration_data.json

* תיקון שגיאה קשה

* תיקון טוקנזיצייה מלא

* Update creating_model_git.py

* Update custom_ner_model22-6git including iteration_data.json

* Revert "Update custom_ner_model22-6git including iteration_data.json"

This reverts commit fa91071.

* Revert "Update custom_ner_model22-5git including iteration_data.json"

This reverts commit 5c44b9d.

* Revert "Update custom_ner_model22-4git including iteration_data.json"

This reverts commit 9539ebe.

* Revert "Update custom_ner_model22-3git including iteration_data.json"

This reverts commit 2362630.

* Revert "Update custom_ner_model22-2git including iteration_data.json"

This reverts commit 2c93beb.

* Revert "Update custom_ner_model22-1git including iteration_data.json"

This reverts commit 0a15ab6.

* Revert "Update custom_ner_model22-0git and iteration_data.json"

This reverts commit 643f8bb.

* טוקניזטור משודרג, עדכון מודל

* Update custom_ner_model23git including iteration_data.json

* שינויים ניסיוניים בשיטת האימון

* תיקון שגיאת קוד

* ניסוי פרמטרים 2

* Update custom_ner_model23-1git including iteration_data.json

* כוונון פרמטרי אימון

* Update creating_model_git.py

* Update creating_model_git.py

* Update custom_ner_model23-2git including iteration_data.json

* ניסוי פרמטרים 3

* Update custom_ner_model23-3git including iteration_data.json

* גודל אצווה 64

* Update custom_ner_model23-4git including iteration_data.json

* drop=0.35

* Update model_name.txt

* שמירת המודל הטוב ביותר

* Update custom_ner_model23-5git including iteration_data.json

* גודל אצווה 32

* Update custom_ner_model23-6git including iteration_data.json

* drop 0.25

* Update model_name.txt

* Update custom_ner_model23-7git including iteration_data.json

* יישום minibatch 8-64

* Update creating_model_git.py

* Update creating_model_git.py

* Update custom_ner_model23-8git including iteration_data.json

* drop 4, batch 4-64, f1 מורחב

* Update custom_ner_model23-9git including iteration_data.json

* f1 משופר, אצווה 16-64

* Update custom_ner_model23-10git including iteration_data.json

* אצווה 32 קבועה

* Update custom_ner_model23-11git including iteration_data.json

* DROP 0.3

* Update custom_ner_model23-12git including iteration_data.json

* שיפור דאטה, רנדומליות מלאה

זיהוי זמרים רבים שלא זוהו בשירים המכילים מספר שמות זמרים
רנדומליות משופרת המוודאת שכלל הזמרים מופיעים בכמות זהה פחות או יותר

* Update custom_ner_model24git including iteration_data.json

* שילוב מודל AI במסדר הסינגלים

שילוב נסיוני של מודל ה-NER ישירות בתוך הקוד של מסדר הסינגלים

* עדכון פעולות גיטאהב

* שיפור קל

* תיקון YAML

* מודל זיהוי סוג טקסט (זמר/סתם)

יצירת מודל חדש עבור זיהוי סוג טקסט.
זיהוי בין שם אלבום/זמר/שיר/טקסט סתמי

* מיון מחדש ושיפור מודל

* שינוי שם תיקיה

* הרחבת דאטה

* בדיקת מודל משופרת

בדיקה ספציפית עבור שמות אמנים שזוהו עם מודל ה-NER
מתבצעת שכבת זיהוי נוספת עם מודל ה-sklearn

* שיפור המודל והדאטה-סט

* שיפור קל נוסף

* מחיקת גרסאות ישנות, עדכון דאטה

* הכפלת שמות שירים - נסיוני

ניסיון לשכפל שמות שירים כדי לראות אם זה ישפר או יזיק לביצועי המודל

* אימון גרסה 25

* Update custom_ner_model25git including iteration_data.json

* Revert "הכפלת שמות שירים - נסיוני"

This reverts commit a72fa81.

* דאטה מתוקנת - אימון גרסה 25-1

* Update custom_ner_model25-1git including iteration_data.json

* Update model_metrics.csv

* גרסת cli משולבת sklean

יצירת גרסת cli של התוכנה שמשלבת זיהוי סוג מחרוזת (זמר או אחר) לצורך שכבת זיהוי נוספת על מודל ה-NER

* הסרת יבוא מיותר

* גרסה גרועה הוסרה, יבוא sklearn תוקן

* יבוא נוסף נצרך

* Update music_classifier.pkl

* עיבוד מודל ה-AI לקובץ נפרד

פיצול עיבוד מודל ה-AI לקובץ נפרד עבור מסדר הסינגלים

* שדרוג מודל זיהוי, הגדלת דאטה אלבומים

* תיקון נתיבי קובץ

* מודלי AI מסודרים +מטאדאטה למודל

* שינוי שם מודל זיהוי סוג

* מטאדאטה עבור מודל sklearn

* החזרת קוד שבוטל בתוכנה

* התאמת הקוד לעולם האמיתי

* העברת מודלים ישנים לתיקיה

* ניקוי רשימת זמרים

ניקוי שמות נפוצים ברשימת הזמרים
לייעול אימון המודל ומניעת התאמת יתר

* אימון גרסה 26

שיפור רשימת הזמרים - וידוא שאין כפילויות רבות מידי

* בניית cli רק אם שינוי בנתיב מסויים

* Update singer_names.txt

* Update custom_ner_model26git including iteration_data.json

* drop 0.5

* אימון גרסה 26-1

* Update custom_ner_model26-1git including iteration_data.json

* הגדלת רשימת זמרים, מחיקת שמות שירים סינטטיים

הגבלת שמות זמרים כפולים הועלתה ל-20
שמות שירים סינטטיים שהתווספו בעבר הוסרו, עקב ירידה בביצועים

* Update custom_ner_model26-2git including iteration_data.json

* ניסיון חזרה לרשימת הזמרים הרגילה, קובץ באט אוטומטי

עקב ירידת ביצועים, בדיקה עם רשימת הזמרים המלאה (ללא סינון כפולים)
נוסף קובץ באט עבור כל תהליך בניית הדאטה באופן אוטומטי

* Update custom_ner_model26-3git including iteration_data.json

* Update build_data.bat

* Update model_metrics.csv

* יצירת נתונים סינטטיים חדש

* שיפור כללי בקוד ובלוג

* תיקון שגיאה

* Update creating_model_git.py

* יצירת נתונים סינטטיים עם API GEMINI

* החלפת זמן ריצה

* Update songs_data.txt

* Update gemini_api_creating.py

* תיקון קריטי

* רשימה מעודכנת ליצירה סינטטית

* חידוד הנחיות למודל, רשימה מלאה

* סריקת שורות ספציפיות בקובץ

* 1001 - 3000

* שינוי הנחיות

* הנחיית מערכת מדויקת יותר

* Revert "הנחיית מערכת מדויקת יותר"

This reverts commit 4db151c.

* הנחיית מערכת מדויקת יותר

* 3000-5000

* 5000-7000

* 7001-10000

* 10000-12000

* Update gemini_api_creating.py

* 1000-12000 עם הוראות מחודשות

* Update gemini_api_creating.py

* 10-12 אלף, הנחיות חדשות

* 10-12 מחודש 3

* 14-16 אלף

* עדכון הנחיית מערכת 14-16

* Update gemini_api_creating.py

* ביטול השינויים בקוד האימון

* רשימת שירים כפולה עם נתונים סינטטיים מבוססי gemini

* Create merged_output.txt

* ריצת אימון רק אם cleaned_new-data.json השתנה

* Update custom_ner_model27git including iteration_data.json

* מבחן F1 מעודכן

* אימון מחודש, 64 + 0.3, לוג משופר

* Update custom_ner_model27-1git including iteration_data.json

* סבלנות נמוכה, 128 + 0.3

* תיקון מיקום שמירה

* Update custom_ner_model27-2git including iteration_data.json

* 64 + 0.25, סבלנות גבוהה יותר

* Update custom_ner_model27-3git including iteration_data.json

* 64 + 0.35, סבלנות מוגברת

* Update custom_ner_model27-4git including iteration_data.json

* סבלנות מוגדלת, 64 + 0.4

* Update custom_ner_model27-5git including iteration_data.json

* יצירת רשימה סינטטית משודרגת

* יצירת רשימה 1-5000

* 5000-10000

* 10000-17600

* הפעלת זרימת העבודה

* תיקון שגיאה

* 10000-17600 מתוקן

* אימון עם רשימה מוגדלת ומגוונת

נוספו לרשימה כ-16000 שירים באמצעות gemini flash
השירים שנוספו מגוונים וכוללים מילים וניסוחים חדשים

* Update custom_ner_model28git including iteration_data.json

* 64 + 0.4

* Update custom_ner_model28-1git including iteration_data.json

* הסרת רשימה סינטטית ישנה ואימון מחודש

הסרת הרשימה הסינטטית הקודמת מרשימת השירים, לצורך מניעת התאמת יתר
אימון עם הפרמטרים 64 + 0.4

* Update custom_ner_model29git including iteration_data.json

* אימון 64 + 0.3

* Update custom_ner_model29-1git including iteration_data.json

* אימון 64 + 0.45

* Update custom_ner_model29-2git including iteration_data.json

* עדכון שילוב ה-AI במסדר הסינגלים

* 64 + 0.4 סבלנות נמוכה

* הסרת קבצי אימון, מעבר לקוד מוכן לשחרור

* שיפור ניקוי הקבצים + שילוב בזיהוי ה-AI

---------

Co-authored-by: GitHub Actions <actions@github.com>
@NHLOCAL NHLOCAL merged commit c0445e2 into main Oct 25, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant