נקודות זכות באוניברסיטה העברית:
3
תואר:
מוסמך
היחידה האקדמית שאחראית על הקורס:
מנהל עסקים
סמסטר:
סמסטר א'
שפת ההוראה:
אנגלית
קמפוס:
הר הצופים
מורה אחראי על הקורס (רכז):
פרופ רונן פלדמן
שעות קבלה של רכז הקורס:
יום ב 2-3
מורי הקורס:
פרופ רונן פלדמן
תאור כללי של הקורס:
הקורס נותן סקירה על הטכניקות והישומים המכזיים של תחום כריית הטקסט. נושאים מרכזיים הם קטלוג מידע, חלוץ מידע, בניית רובוטים לאסוף מידע, וניתוח סנטימנט
מטרות הקורס:
מטרת הקורס היא להקנות ידע בשיטות לכריית טקסט ולהתנסות בבנית מערכות לנתוח אוספים גדולים של מסמכים. הקורס מתמקד בטכניקות שונות, אלגוריתמים לממוש טכניקות אלו וישומים של הטכניקות בעולם העסקי
תוצרי למידה : בסיומו של קורס זה, סטודנטים יהיו מסוגלים:
לעצב ולבנות מערכת בסיסית לכריית טקסט על מנת לנתח אוסף גדול של מסמכים. סטודנטים יוכלו ליישם מגוון שיטות לקטלוג מידע, חלוץ מידע, בניית רובוטים לאסוף מידע, וניתוח סנטימנט.
דרישות נוכחות (%):
70%
שיטת ההוראה בקורס:
הרצאות פרונטליות של החומר
הרצאה של הסטודנטים על שמוש בטכניקות של כריית טקסט לפתרון בעיה עסקית
בצוע פרוייקט מחקר ישומי בקבוצות של 2-3 סטודנטים
רשימת נושאים / תכנית הלימודים בקורס:
Introduction to Text Mining
a. Architecture of Text Mining Systems
2. Term Extraction
3. Text Categorization
a. RIPPER
b. Naive Bayes
c. Sleeping Experts for Phrases
d. SVM
e. KNN
f. Online Methods
g. Committees
h. Begging and Boosting
4. Information Extraction
a. General Architecture
b. HMM
c. Knowledge Based Systems
d. Boot Strapping
e. Unsupervised relation Extraction
5. Analytics
a. Maximal Association Rules
b. Trend Analysis
c. Distribution Analysis
d. Comparing Profiles
6. Link Analysis
a. Pajek
7. Sentiment Analysis
a. Document Level Sentiment Analysis
b. Sentence level Sentiment Analysis
c. Aspect based Sentiment Analysis
d. Comparative Sentiment Analysis
e. Sentiment Analysis Applications
8. Visualizationsa. Circle Graphs
b. Spring Graphs
c. Trend Graphs
9. Applications
a. Content Management
i. Classification of documents
ii. Automatic organization of internet content
iii. Clustering of documents
b. Marketing
i. Discussion boards analysis
ii. Blogs analysis
iii. Creation of perceptual maps
c. Accounting
i. Analysis of SEC filings (10Ks, 10Qs, 8Ks)
ii. Automatic Detection of Problematic Issues in company reports
d. News Analysis
i. Named Entity Extraction
ii. Event Detection
iii. Social Networks Analysis
iv. Trend Analysis
e. BioTech
i. Relations between genes, proteins, drugs, diseases
ii. Monitoring Company Drug Development Activities
f. Competitive Intelligence
i. Analyzing competitors press releases and web sites
g. Anti Terror Applications
i. 9/11 analysis
ii. Connectivity Analysis
iii. Centrality Analysis
iv. Blocks Modeling
10. Text Mining Packages
a. Stanford NLP tools
b. Analyst Notebook
c. NetMap
חומר חובה לקריאה:
The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data (Hardcover) by Ronen Feldman and James Sanger, Cambridge University Press
The Handbook of Data Mining (N. Ye, ed.). Lawrence-Erlbaum Associates.
Handbook of Data Mining and Knowledge Discovery Edited by WILLI KLÖSGEN, Fraunhofer Institute for Autonomous Intelligent Systems, Sankt Augustin, Germany, and the late JAN M. ZYTKOW
KDD-2000-2014 Conference on Knowledge Discovery and Data Mining, proceedings and CD-ROM, ACM Press
George Chang, Marcus J. Healey, James A. M. McHugh, Jason T. L. Wang, Mining the World Wide Web: An Information Search Approach , Kluwer Academic Publishers, 2001, ISBN 0-7923-7349-9
R. Kohavi, M. Spiliopoulou, J. Srivastava, editors, WEBKDD'2000 Web Mining for E-Commerce -- Challenges and Opportunities, KDD-2000 workshop proceedings, August 2000, Boston, MA
R Feldman Techniques and applications for sentiment analysis Communications of the ACM 56 (4), 82-89
B Rozenfeld, R Feldman Self-supervised relation extraction from the Web
Knowledge and Information Systems 17 (1), 17-33
O Netzer, R Feldman, J Goldenberg, M Fresko Mine your own business: Market-structure surveillance through text mining Marketing Science 31 (3), 521-543
חומר לקריאה נוספת:
הערכת הקורס - הרכב הציון הסופי :
מבחן מסכם בכתב/בחינה בעל פה 20 %
הרצאה10 %
השתתפות 0 %
הגשת עבודה 0 %
הגשת תרגילים 0 %
הגשת דו"חות 0 %
פרויקט מחקר 70 %
בחנים 0 %
אחר 0 %
מידע נוסף / הערות:
|