تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده...
Download
1 / 55

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی - PowerPoint PPT Presentation


  • 153 Views
  • Uploaded on

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی. نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي، آقای دکتر ميبدی استاد راهنما: آقای دکتر عبداله‌زاده. فهرست. مقدمه. مقدمه. رکوردهای تکراری عبارتند از بازنمايي‌های متفاوت از يک موجوديت در جهان واقع.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی' - torn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی

نام دانشجو: علی عبدلی

اساتيد داور: آقای دکتر مينايي،آقای دکتر ميبدی

استاد راهنما: آقای دکتر عبداله‌زاده


فهرست از آناليز معنايي داده‌های عملياتی


  • مقدمه از آناليز معنايي داده‌های عملياتی

مقدمه

  • رکوردهای تکراری عبارتند از بازنمايي‌های متفاوت از يک موجوديت در جهان واقع.

  • شناسايي رکوردهای تکراری، يافتن موجوديت‌های يکسان با بازنمايي‌های متفاوت است.


  • مقدمه از آناليز معنايي داده‌های عملياتی

کاربردهای يافتن رکوردهای تکراری

  • تشخيص رکوردهای تکراری در کاربردهای زير مطرح است

    • يکپارچه‌سازی داده‌ها

    • Similarity Query

    • پاکسازی داده‌ها


  • مقدمه از آناليز معنايي داده‌های عملياتی

يکپارچه‌سازی داده‌ها

  • اطلاعات مربوط به موجوديت‌ها در منابع داده‌ای متفاوت ذخيره شده‌اند.

  • لازم است اطلاعات مربوط به يک موجوديت از منابع اطلاعاتی مختلف گردآوری شود.

پايگاه داده حقوق و دستمزد

پايگاه داده دانشگاه

پايگاه داده رفاه کارکنان


Similarity query

  • مقدمه از آناليز معنايي داده‌های عملياتی

Similarity Query

  • در گروهی از پايگاه‌های داده امکان تطبيق داده‌ها با درخواست کاربر وجود ندارد.

  • به عنوان مثال در يک موتور جستجو

    • يافتن متون مربوط به درخواست کاربر.

  • يافتن موجوديت با شباهت بيشتر


  • مقدمه از آناليز معنايي داده‌های عملياتی

پاکسازی داده‌ها

  • اطلاعات با کيفيت پايين سبب کاهش کارايي سازمان‌ها و تصميمات اشتباه

  • اطلاعات با کيفيت پايين عبارتند از

    • اطلاعات تکراری

    • غلط‌های املايي و با نمايش اشتباه

  • وجود داده‌های تکراری باعث

    • گزارشات اشتباه و در نتيجه تصميمات اشتباه

      • فرستادن چندين ايميل يکسان برای يک مشتری

    • هزينه نگهداری داده‌های اضافی برروی رسانه


  • مقدمه از آناليز معنايي داده‌های عملياتی

پيش‌پردازش

  • تبديل داده‌ها به رکورد

    • استخراج ويژگی از صفحات وب، تصاوير، فيلم‌ها

  • رکوردها برای آنکه قابل مقايسه شوند، بايد استانداردسازی، پارس يا تبديل به داده‌های جديد شوند.


روش‌ها و رويکردها در يافتن داده‌های تکراری

  • در تشخيص داده‌های تکراری، داده‌ها به شکل زير مدل می‌شوند

    • ساختار

    • مقدار

  • روش‌ها با توجه به اين که شباهت ميان ساختار و يا مقدار و يا هر دو را در نظر بگيرند، به دسته‌ها مختلف تقسيم می‌شوند.


روش‌ها و رويکردها در يافتن داده‌های تکراری...


روش‌های برپايه ساختار و ترکيبی

  • روش‌های برپايه ساختار و ترکيبی

    • داده‌ها دارای ساختار هستند


روش‌های برپايه مقدار

  • در اين روش‌ها، شباهت با توجه به مقدار داده‌ها مقايسه می‌شود و شباهت‌های ساختاری در نظر گرفته نمی‌شود.

  • در مقايسه رکوردها از روش‌های برپايه مقدار استفاده می‌شود زيرا:

    • رکوردها دارای ساختار يکسانی هستند.

    • در مرحله پيش‌پردازش فيلدهای قابل مقايسه استخراج شده است.


روش‌های مقايسه فيلد

  • در اين روش‌ها شباهت ميان فيلدها اندازه‌گيری می‌شود.

  • تابع شباهت، تابعی است که شباهت ميان دو فيلد را اندازه‌گيری کرده و به صورت عددی بين صفر و يک بيان می‌کند.

محمد علی

F(x,y)=0.7

محمد


روش‌های مقايسه فيلد…

  • روش‌ها مقايسه فيلد به دو دسته تقسيم می‌شوند

    • برپايه کاراکتر

      • شباهت بر اساس کاراکترها

    • برپايه توکن

      • در صورت تغييرات در سطح کلمات تشکيل دهنده فيلد، روش‌های برپايه کاراکتر دارای کارايي مناسب نيستند.

  • مقايسه فيلد

  • برپايه توکن

شنبه

F(x,y)=0.7

  • برپايه کاراکتر

دوشنبه

تهران، خيابان حافظ، دانشگاه اميرکبير

F(x,y)=0.8

دانشگاه اميرکبير، ايران، تهران، خيابان حافظ


روش‌های تجميعی

  • در روش‌های تجميعی ميزان شباهت کل رکورد اندازه‌گيری می‌شود.

  • اين روش‌ها به دو دسته زير دسته‌بندی می‌شوند

    • روش‌های برپايه فرمول‌های جبری

    • روش‌های هوشمند


روش‌های برپايه فرمول‌های جبری

  • در روش‌های برپايه فرمول‌های جبری رويکردهای متفاوتی وجود دارد

    • جمع وزن‌دار شباهت فيلدها

    • تبديل کل رکورد به يک فيلد

    • ...

  • مشکل تعيين حدود آستانه

  • بهترين کارايي در حدود 90%


روش‌های هوشمند

  • استفاده از الگوريتم‌های يادگيری ماشين

  • آموزش با استفاده از داده

  • استفاده از مدل برای داده‌های تستی

  • مزايا

    • کمترين دخالت انسان

    • بالاترين کارايي


مراحل روش‌های هوشمند

  • تشکيل بردار ويژگی با استفاده از مقايسه فيلد به فيلد

يکسان

يا غيريکسان

شباهت 1

شباهت 2

...

شباهت n


مراحل روش‌های هوشمند...

مجموعه داده 1

مجموعه داده 2

مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی

فرد خبره

استفاده از تابع شباهت و تشکيل بردار ويژگی

استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار

استفاده از مدل آموزش ديده برای برچسب‌گذاری ساير رکوردها


روش‌های هوشمند...

  • Andrew McCallum

    • ارائه مدل‌های بيزين و شبکه‌های بيزی و مدل‌های احتمالی

    • ارائه مجموعه داده‌های مرجع

  • Ahmed Elmagarmid

    • ارائه survey از تمامی روش‌ها و رويکردهای موجود

  • VassiliosVerykios

    • استفاده از روش‌های استخراج قوانين به صورت اتوماتيک

  • SunitaSarawagi

    • استفاده از روش‌های يادگيری فعال

  • DebabrataDey

    • تشخيص رکوردهای تکراری به صورت برخط

  • Huimin Zhao

    • ترکيب دسته‌بندی‌کننده‌های مختلف


مزايا و معايب روش‌های موجود


مشکل 1: در نظر نداشتن شباهت معنايي

  • روش‌های مقايسه فيلد تنها می‌توانند شباهت رشته‌ای و يا شباهت‌های تلفظی ميان فيلدها را تعيين کنند.

  • در بسياری از موارد فيلدها دارای شباهت رشته‌ای نيستند ولی دارای ارتباط با يکديگر می‌باشند.

کتاب

اتومبيل

کتابچه

خودرو


ارتباط معنايي…

  • دو رکورد زير به يک موجوديت در جهان واقع اشاره می‌کنند ولی فيلدها دارای هيچ شباهت رشته‌ای نيستند.


گراف معنايي

  • گراف ابزاری برای نشان دادن ارتباط ميان مفاهيم موجود در کلمات

  • استفاده از گراف معنايي برای بازنمايي و آناليز لغوی

  • هر نود نشاندهنده يک مفهوم است.

  • مفاهيم مرتبط با يک يال به يکديگر متصل می‌شوند.


گراف معنايي...

موجوديت

جاندار

شي

...

انسان

حيوان

...

خودرو

فرمان

چرخ

دنده


شباهت معنايي

  • روش‌های متفاوتی برای تعيين شباهت معنايي ميان مفاهيم وجود دارد

    • تعداد گره‌های کوتاهترين مسير

    • جمع يا ضرب وزن‌دار يال‌های کوتاهترين مسير

    • بزرگترين فاصله تا پدر مشترک


ارائه تابع شباهت معنايي

  • استفاده از تابع شباهت معنايي به تنهايي نمي‌تواند نشاندهنده ارتباط ميان فيلدها باشد.

    • فيلدها ممکن است دارای خطاهای رشته‌ای باشند.

    • بعضی از فيلدها مثل فيلد نام، دارای هيچ مفهومی نيست.

  • استفاده از شباهت رشته‌ای و معنايي


ارائه تابع شباهت معنايي...

مجموعه داده 1

مجموعه داده 2

شباهت 1

شباهت 2

مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی

...

شباهت n

يکسان

يا غيريکسان

استفاده از تابع شباهت و تشکيل بردار ويژگی

استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار

28

28

استفاده از مدل آموزش ديده برای برچسب‌گذاری ساير رکوردها


مشکل 2: استفاده از تابع شباهت مناسب

  • توابع شباهت متفاوت برای مجموعه داده‌های متفاوت

  • به عنوان مثال:

    • داده‌هاي سيستم بازشناسی گفتار دارای شباهت‌های تلفظی هستند.

    • داده‌هايصفحات وب دارای خطاهای املايي هستند.

اعتياد

احتياط

تاهل

تعحل


مشکل 2: استفاده از تابع شباهت مناسب...

  • لزوم استفاده از چندين تابع شباهت به صورت همزمان

    • به عنوان مثال ترکيب شباهت معنايي و رشته‌ای

  • بردار ويژگی با استفاده از اين توابع ايجاد می‌شود

    • تاثير برروی کارايي الگوريتم‌های هوشمند


ارائه روشی برای تعيين تابع شباهت

  • تابع شباهتی حاصل از ترکيب توابع شباهت کانديد

sim 1

فيلد 1 از رکورد 1

w1

sim 2

Similarity

w2

فيلد 1 از رکورد 2

wn

sim n


ارائه روشی برای تعيين تابع شباهت...

  • وزن‌ها نشاندهنده اهميت هر يک از توابع شباهت هستند.

  • وزن‌های بالاتر نشاندهنده اهميت بيشتر تابع شباهت متناظر شده است.

  • در روش‌های هوشمند، خروجی توابع شباهت برای هر فيلد برای ساخت بردار شباهت استفاده می‌شود.

sim 1

فيلد 1 از رکورد 1

w1

sim 2

w2

فيلد 1 از رکورد 2

wn

sim n


ارائه روشی برای تعيين تابع شباهت...

sim 1

sim 1

w1

w1

sim 2

sim 2

w2

w2

wn

wn

sim n

sim n


تخمين وزن‌ها

  • وزن‌ها بايد به‌گونه‌ای تعيين شود که کارايي الگوريتم‌های هوشمند بيشينه شود.

F(w1 , … , wn )

w1

محاسبه کارايي الگوريتم برای زير مجموعه‌ای از داده‌های آموزشی

w2

کارايي الگوريتم

...

wn


تخمين وزن‌ها ...

  • وزن‌ها بايد به شکلی تعيين شوند که F(w1 , … , wn )بيشينه شود.

  • برای اين کار اين تابع را توسط يکی از الگوريتم‌های تکاملی مثل الگوريتم ژنتيک استفاده می‌شود.


الگوريتم تعيين توابع شباهت

مجموعه داده 1

مجموعه داده 2

  • مرحله 1: تخمين وزن‌ها

انتخاب زير مجموعه‌ای از داده‌ها و مجموعه‌ای از توابع شباهت و وزن‌های اوليه

تشکيل بردار شباهت با استفاده از وزن‌ها

بهينه‌سازی توسط الگوريتم‌های تکاملی

استفاده از يک مدل يادگير و اندازه گيری کارايي

تخمين وزن‌های مناسب و حذف توابع شباهت نامناسب


الگوريتم تعيين توابع شباهت...

مجموعه داده 1

مجموعه داده 2

  • مرحله 2: استفاده از وزن‌ها

مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی

sim 1

sim 1

استفاده از تابع شباهت و تشکيل بردار ويژگی

w1

w1

sim 2

sim 2

w2

w2

استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار

wn

wn

sim n

sim n


  • آزمايشات از آناليز معنايي داده‌های عملياتی

معيارهای ارزيابی

  • دقت:

  • يادآوری:

  • F-measure:


  • آزمايشات از آناليز معنايي داده‌های عملياتی

داده‌های آزمايش

  • داده رستوران

    • در اکثر مقالات به عنوان داده مرجع استفاده می‌شود.

    • اطلاعات مربوط به رستوران‌ها که از دو وب‌سايت تهيه شده است.

    • اطلاعات مربوط به تعدادی از اين رستوران‌ها در هر دو وب سايت وجود دارد.

    • فيلدها دارای معنی هستند.

      • نوع و شهر


  • آزمايشات از آناليز معنايي داده‌های عملياتی

داده‌های آزمايش...

  • Cora:

    • توسط Andrew McCallumايجاد شده و از جمله داده‌های مرجع

    • اطلاعات مربوط به مقالات در پايگاه داده‌های متفاوت است.

    • شامل: نام نويسنده، جلد، عنوان، موسسه، محل برگزاری، آدرس، ناشر، سال، تعداد صفحات، ويرايشگر، يادداشت، ماه.


  • آزمايشات از آناليز معنايي داده‌های عملياتی

شرايط آزمايشات

  • توابع شباهت رشته‌ای مورد استفاده:

    • Jaro:

      • تعداد کاراکترهای مشترک و تعداد جابه‌جايي‌ها برای تساوی دو رکورد را اندازه می‌گيرد.

    • Soundex:

      • شباهت‌های تلفظی ميان رشته‌ها را اندازه می‌گيرد.

      • کاراکترهای با تلفظ مشابه را به کد تبديل می‌شود، کدها به صورت رشته‌ای با يکديگر مقايسه می‌شوند.

    • Levenshtein:

      • تعداد کاراکترهايي که بايد حذف، درج يا تغيير کنند تا دو رشته به يکديگر تبديل شوند.

    • Q-grams:

      • تعداد سری کاراکترهای مشترک

  • اين توابع از جمله توابع مرجع در يافتن شباهت رشته‌ای هستند.


  • آزمايشات از آناليز معنايي داده‌های عملياتی

شرايط آزمايشات ..

  • برای دسته‌بندی از مدل‌های زير استفاده شده است:

    • Naïve Bayes

    • BayesNet

    • J48

    • RBF

    • Multi Layer Perceptron

    • Voted Perceptron

    • ADTree

  • دسته‌بندی کننده‌های فوق دارای بالاترين کارايی در مقالات هستند


  • آزمايشات از آناليز معنايي داده‌های عملياتی

آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران


  • آزمايشات از آناليز معنايي داده‌های عملياتی

آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران...


  • آزمايشات از آناليز معنايي داده‌های عملياتی

آزمايش 2: کاهش تعداد داده‌های آموزشی

  • کاهش تعداد داده‌های آزمايشی از 700 به 200


  • آزمايشات از آناليز معنايي داده‌های عملياتی

آزمايش 3: تعيين توابع شباهت مناسب

  • ميانگين کارايي تمامی دسته‌بندی‌کننده‌ها برای هر يک از توابع شباهت برروی داده رستوران


  • آزمايشات از آناليز معنايي داده‌های عملياتی

آزمايش 3: تعيين توابع شباهت مناسب

  • ميانگين کارايي تمامی دسته‌بندی‌کننده‌ها برای هر يک از توابع شباهت برروی داده Cora


خلاصه و نتيجه‌گيری

  • در بسياری از کاربردها يافتن رکوردهای تکراری مطرح است

    • يکپارچه‌سازی داده

    • پالايش داده

    • Similarity Query

  • تابع شباهتی ارائه شد که شباهت معنايي ميان مفاهيم را اندازه‌گيری می‌کند.

  • شباهت معنايي با استفاده از آناليز لغوی فيلدها اندازه‌گيری می‌شود.

  • برای بازنمايي و آناليز معنايي، از گراف معنايي استفاده می‌شود.

  • تابع شباهتجديد برروی داده‌های مرجع آزمايش شد

    • استفاده از تابع شباهت جديد سبب افزايش کارايي دسته‌بندی‌کننده‌ها می‌شود.

    • تابع شباهت نسبت به کاهش تعداد داده‌های آزمايشی پايدارتر است.


خلاصه و نتيجه‌گيری ...

  • تعيين تابع شباهت مناسب يکی از مشکلات يافتن رکوردهای تکراری است

    • روشی ارائه شد که ميزان اهميت هر يک از توابع شباهت با توجه به مجموعه داده‌های متفاوت را محاسبه می‌کند.

    • روش ارائه شده برروی مجموعه داده‌های استاندارد آزمايش شد.

    • آزمايشات نشان می‌دهد با تعيين تابع شباهت مناسب

      • محاسبات کمتر

      • کارايي بالاتر


کارهای آينده

  • استفاده از تابع شباهت معنايي در ساير روش‌ها

    • تاثير استفاده از تابع شباهت معنايي را می‌توان در ساير روش‌ها مثل روش‌های برپايه فاصله و يا خوشه‌بندی کننده‌ها بررسی کرد.

  • تعيين توابع شباهت مناسب برای هر يک از صفات

    • می‌توان اهميت توابع شباهت را برای هر يک از صفات در نظر گرفت و وزن‌ها با توجه به صفات تخمين زده شوند.


مراجع از آناليز معنايي داده‌های عملياتی

[1] A. K. Elmagarmid and P. G. Ipeirotis, "Duplicate Record Detection: A Survey," IEEE transaction on knowledge and data engineering, vol. 19, pp. 1-16, 2007.

[2] Q. kan and Y. Yang, "An Integrated Approach for Detecting Approximate Duplicate Records," in Second Asia-Pacific Conference on Computational Intelligence and Industrial Applications, 2009, pp. 381-384.

[3] D. Jurafsky and J. H. Martin, An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2009.

[4] P. Moreda and B. Navarro, "Corpus-based semantic role approach in information retrieval," Data & Knowledge Engineering, vol. 61, pp. 467-483, 2007.

[5] Y. Li and Z. A. Bandar, "An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources," IEEE transaction on knowledge and data engineering, vol. 15, pp. 871-882, 2003.

[6] A. Budanitsky and G. Hirst, "Evaluating WordNet-based Measures of Lexical Semantic Relatedness," Computational linguistics, vol. 32, pp. 13-47, 2006.

[7] C. F. Dorneles and R. Gonçalves, "Approximate data instance matching: a survey," KnowlInfSyst, vol. 27, pp. 1-21, 2011.

[8] E. Durham and Y. Xue, "Quantifying the correctness, computational complexity and security of privacy-preserving string comparators for record linkage," Information Fusion, 2011,In press.

[9] M. Bilenko and R. J. Mooney, "Adaptive Duplicate Detection Using Learnable String Similarity Measures," in Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2003, pp. 39-48.

[10] C. F. Dorneles and M. F. Nunes, "A strategy for allowing meaningful and comparable scores in approximate matching," Information Systems, vol. 34, p. 673, 2009.

[11] V. Levenshtein, "Binary Codes Capable of Correcting Deletions, Insertions and Reversals," DokladyAkademiiNauk SSSR, vol. 163, pp. 845-848, 1965.

[12] G. Navarro and E. Chávez, "A metric index for approximate string matching," Theoretical Computer Science, vol. 352, pp. 266-279, 2006.

[13] N. Koudas and S. Sarwagi, "Record Linkage: Similarity Measures and Algorithms," in ACM SIGMOD international conference on Management of data, USA, 2006, pp. 802-803.

[14] J. Wang and G. Li, "Entity matching: how similar is similar," in Proceedings of the VLDB Endowment, 2011, pp. 622-633.

[15] R. d. Silva, et al., "Measuring quality of similarity functions in approximate data matching," Journal of Informetrics, vol. 1, pp. 2353-2356, 2007.

[16] J. B. d. Santos and C. A. Heuser, "Automatic threshold estimation for data matching applications," Information Sciences, vol. 181, pp. 2699-2686, 2011.

[17] S. Martínez and A. Valls, "An ontology-based record linkage method for textual microdata," in Proceedings of the 14th International Conference of the Catalan Association for Artificial Intelligence, 2011, pp. 130-139.

[18] H. Köpcke and A. Thor, "Evaluation of entity resolution approaches on real-world match problems," in Proceedings of the VLDB Endowment 2010.

[19] K. Goiser and P. Christen, "Towards automated record linkage," in Proceedings of the fifth Australasian conference on Data mining and analystics, Australia 2006, pp. 23-31.

[20] Y. Liang, "A comparative experiment on record match algorithms: naïve Bayesian versus distance," in Proceedings of the 45th annual southeast regional conference, USA, 2007, pp. 539-540.


مراجع از آناليز معنايي داده‌های عملياتی

[21] G. Beskales, "ProbClean: A Probabilistic Duplicate Detection System," in IEEE ICDE Conference, Canada, 2010, pp. 1193-1196.

[22] A. Culotta and A. McCallum, "Joint Deduplication of Multiple Record Types in Relational Data," in Proceedings of the 14th ACM international conference on Information and knowledge management Germany, 2005, pp. 257-258.

[23] W. E. Winkler, "Methods for evaluating and creating data quality," Information Systems, vol. 29, pp. 531-550, 2004.

[24] D. Dey, "Entity matching in heterogeneous databases: A logistic regression approach," Decision Support Systems, vol. 44, pp. 740-747, 2008.

[25] V. S. Verykios and G. V. Moustakides, "A Bayesian decision model for cost optimal record matching," The International Journal on Very Large Data Bases, vol. 12, pp. 28-40, 2003.

[26] V. S. Verykios and G. V. Moustakides, "A generalized cost optimal decision model for record matching," in Proceedings of the 2004 international workshop on Information quality in information systems USA, 2004, pp. 20-26.

[27] M. Cochinvala, "Efficient data reconciliation," Information Sciences, vol. 137, pp. 1-15, 2001.

[28] X. Dong and A. Halevy, "Reference reconciliation in complex information spaces," in ACM SIGMOD international conference on Management of data, USA, 2005, pp. 69-85.

[29] A. Arasu and M. Götz, "On Active Learning of Record Matching Packages," in SIGMOD 10, 2010, pp. 783-794.

[30] J. d. Freitas and G. L. Pappa, "Active Learning Genetic Programming for Record Deduplication," in Evolutionary Computation (CEC) IEEE Congress on Digital Object Identifier, Barcelona, 2010, pp. 1-8.

[31] J. G. Conrad and C. Dozier, "Public record aggregation using semi-supervised entity resolution," in Proceedings of the 13th International Conference on Artificial Intelligence and Law USA, 2011, pp. 10-15.

[32] S. Sarawagi, "Interactive Deduplication Using Active Learning," in Proc. Eighth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, 2003, pp. 269-287.

[33] W. Fan and X. Jia, "Reasoning about record matching rules," VLDB Endowment, vol. 2, 2009.

[34] W. L. Low and M. L. Lee, "A knowledge-based approach for duplicate elimination in data cleaning," Information Systems, vol. 26, p. 606, 2001.

[35] O. Hassanzadeh and F. Chiang, "Framework for Evaluating Clustering Algorithms in Duplicate Detection," in PVLDB, 2009, pp. 1282-1293.

[36] P. Ravikumar and W. W. Cohen, "A hierarchical graphical model for record linkage," in Proceedings of the 20th conference on Uncertainty in artificial intelligence, USA, 2004, pp. 454-461.

[37] Q. Hua, et al., "An Optimal Feature Selection Method for Approximately Duplicate Records Detecting," in Information Management and Engineering (ICIME), 2010, pp. 446-450.

[38] P. Christen, "A two-step classification approach to unsupervised record linkage " in Proceedings of the sixth Australasian conference on Data mining and analytics, Australia, 2007, pp. 111-119.

[39] G. A. Wang and H. Atabakhsh, "A hierarchical Naïve Bayes model for approximate identity matching," Decision Support Systems, vol. 51, pp. 413-423, 2011.

[40] M. Rehman and V. Esichaikul, "Duplicate Record Detection for Database Cleansing," in Second International Conference on Machine Vision, Dubai, 2009, pp. 333-338.


مراجع از آناليز معنايي داده‌های عملياتی

[41] H. GuoJun and H. Ping, "An Approach for Detecting Approximately Duplicate Data Warehouse Records," in International Conference on Computer Application and System Modeling, Taiyuan 2010, pp. 679-682.

[42] D. R. Wilson, "Beyond Probabilistic Record Linkage: Using Neural Networks and Complex Features to Improve Genealogical Record Linkage," in Proceedings of International Joint Conference on Neural Networks, San Jose, California, USA, 2011, pp. 9-14.

[43] M. Ektefa and F. Sidi, "A Comparative Study in Classification Techniques for Unsupervised Record Linkage Model," Journal of Computer Science, vol. 6, pp. 341-347, 2011.

[44] G. d. Carvalho, "A Genetic Programming Approach to Record Deduplication," IEEE transaction on knowledge and data engineering, vol. 24, pp. 399 – 412, 2010.

[45] M. G. Carvalho and A. H. F. Laender, "Replica identification using genetic programming," in Proceedings of the 2008 ACM Symposium on Applied Computing, Brazil 2008, pp. 1801-1806.

[46] D. Dey and V. S. Mookerjee, "Efficient Techniques for Online Record Linkage," IEEE transaction on knowledge and data engineering, vol. 23, pp. 373-387, 2011.

[47] H.-s. Kim and D. Lee, "Parallel linkage," in Proceedings of the sixteenth ACM conference on Conference on information and knowledge management USA, 2007, pp. 283-292.

[48] S. E. Whang and H. G. Molina, "Entity resolution with evolving rules," VLDB Endowment, vol. 3, pp. 219-232, 2010.

[49] M. Bilenko and S. Basu, "Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping," in Proceedings of the Fifth IEEE International Conference on Data Mining, USA, 2005, pp. 8-13.

[50] S. Yan and D. Lee, "Adaptive Sorted Neighborhood Methods for Effcient Record Linkage," in Proceedings of the 7th ACM/IEEE-CS joint conference on Digital Libraries, Canada, 2007, pp. 185-194.

[51] P. Christen, "Automatic record linkage using seeded nearest neighbour and support vector machine classification," in ACM SIGKDD’08, Las Vegas, 2008, pp. 151-159.

[52] G. V. Moustakides and V. S. Verykios, "Optimal Stopping: A Record-Linkage Approach," Journal of Data and Information Quality, vol. 1, pp. 1-34, 2009.

[53] H. Köpcke and E. Rahm, "Frameworks for entity matching: A comparison," Data & Knowledge Engineering, vol. 69, pp. 197-210, 2010.

[54] H. Zhao and S. Ramb, "Entity matching across heterogeneous data sources: An approach based on constrained cascade generalization," Data & Knowledge Engineering, vol. 66, pp. 368-381, 2008.

[55] H. Zhaoa and S. Ram, "Entity identification for heterogeneous database integration—a multiple classifier system approach and empirical evaluation," Information Systems, vol. 30, pp. 119-132, 2005.

[56] I. Bhattacharya and L. Getoor, "Iterative Record Linkage for Cleaning and Integration," in Proceedings of the Ninth ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, USA, 2004, pp. 11-18.

[57] D. Buttler, "A short survey of document structure similarity algorithms," in Proceedings of the international conference on internet computing, USA, 2004, pp. 3-9.

[58] S. Milano, "Structure aware xml object identification," presented at the Proceedings of the first Int’l VLDB workshop on clean databases, Korea, 2006.

[59] B. Marshall and H. Chen, "Matching knowledge elements in concept maps using a similarity flooding algorithm," Decision Support Systems, vol. 42, p. 1290, 2006.

[60] Y. J and C. WK, "Integrating element and term semantics for similarity-based xml document clustering," in IEEE/WIC/ACM international conference on web intelligence (WI), USA, 2005, pp. 222-228.


مراجع از آناليز معنايي داده‌های عملياتی

[61] V. S. Verykios and A. K. Elmagarmid, "Automating the approximate record-matching process," Information Sciences, vol. 126, p. 92, 2000.

[62] P. Paskalev and A. Antonov, "Increasing the performance of an application for duplication detection," in Proceedings of the 2007 international conference on Computer Systems and Technologies, USA, 2007, pp. 1-8.

[63] S. Lee and J. Lee, "Scalable entity matching computation with materialization," in Proceedings of the 20th ACM international conference on Information and knowledge management 2011, pp. 2353-2356.

[64] P. Christen, "A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication," IEEE transaction on knowledge and data engineering, vol. PP, pp. 1-1, 2011.

[65] J. Gómez-Bao and J.-L. Larriba-Pey, "Record linkage performance for large data sets," in Proceedings of the ACM first international workshop on Privacy and anonymity for very large databases, New York, 2009, pp. 9-16.

[66] A. Al-Lawati and D. Lee, "Blocking Aware Private Record Linkage," in Proceedings of the 2nd international workshop on Information quality in information systems USA, 2005, pp. 59-68.

[67] U. Draisbach, "A Generalization of Blocking and Windowing Algorithms for Duplicate Detection," in IEEE transaction on knowledge and data engineering, 2011, pp. 18-24.

[68] G. Papadakis and E. Ioannou, "Efficient entity resolution for large heterogeneous information spaces," in Proceedings of the fourth ACM international conference on Web search and data mining USA, 2011.

[69] T. D. Vries and H. Ke, "Robust Record Linkage Blocking Using Suffix Arrays and Bloom Filters," ACM Transactions on Knowledge Discovery from Data, vol. 5, 2011.

[70] S. E. Whang and D. Menestrina, "Entity resolution with iterative blocking," in Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data, 2009, pp. 219-232.


با تشکر از آناليز معنايي داده‌های عملياتی از توجه شما


ad