خراش دادن وب سایت ها با Python و BeautifulSoup - مشاوره در مورد Semalt

بیش از اطلاعات کافی در اینترنت در مورد چگونگی رعایت درست وب سایت ها و وبلاگ ها وجود دارد. آنچه ما نیاز داریم فقط دسترسی به آن داده ها نیست بلکه راه های مقیاس پذیر برای جمع آوری ، تجزیه و تحلیل و سازماندهی آن است. Python و BeautifulSoup دو ابزار شگفت انگیز برای خراش دادن وب سایت ها و استخراج داده ها هستند. در وب scraping ، داده ها به راحتی می توانند با فرمت موردنیاز استخراج و ارائه شوند. اگر یک سرمایه گذار مشتاق هستید که زمان و پول خود را ارزیابی می کند ، مطمئناً باید روند scraping وب را سرعت بخشیده و آن را به همان اندازه که ممکن است بهینه سازی کند.

شروع شدن

ما قصد داریم از Python و BeautifulSoup به عنوان زبان اصلی قراضه استفاده کنیم.

  • 1. برای کاربران Mac ، پایتون در سیستم عامل X از پیش نصب شده است. آنها فقط باید Terminal را باز کرده و در Python –version تایپ کنند. به این ترتیب ، آنها قادر به دیدن نسخه پایتون 2.7 خواهند بود.
  • 2. برای کاربران ویندوز ، توصیه می کنیم Python را از طریق سایت رسمی آن نصب کنید.
  • 3. در مرحله بعد ، شما باید به کمک پیپ به کتابخانه BeautifulSoup دسترسی پیدا کنید. این ابزار مدیریت بسته بندی مخصوصاً برای پایتون ساخته شده است.

در ترمینال باید کد زیر را وارد کنید:

پیپ آسان

pip نصب BeautifulSoup4

قوانین خراش دادن:

قوانین اصلی قراضه سازی که باید از آنها مراقبت کنید عبارتند از:

  • 1. شما باید قبل از شروع کار با خراش آن ، قوانین و مقررات سایت را بررسی کنید. بنابراین بسیار مراقب باشید!
  • 2. شما نباید بیش از حد تهاجمی داده ها را از سایت ها درخواست کنید. مطمئن شوید ابزاری که استفاده می کنید منطقی رفتار می کند. در غیر این صورت می توانید سایت را خراب کنید.
  • 3. یک درخواست در هر ثانیه عمل صحیح است.
  • 4- طرح وبلاگ یا سایت در هر زمان قابل تغییر است و ممکن است مجبور شوید مجدداً آن سایت را مجدداً بازنویسی کرده و در صورت لزوم کد خود را بازنویسی کنید.

صفحه را بازرسی کنید

نشانگر خود را در صفحه Price قرار دهید تا بفهمید چه کاری باید انجام شود. متن مربوط به HTML و Python را بخوانید و از نتایج ، قیمت های موجود در برچسب های HTML را مشاهده خواهید کرد.

صادرات به CSV Excel

پس از استخراج داده ها ، مرحله بعدی ذخیره آن به صورت آفلاین است. قالب جداگانه کاملاً جداگانه Excel بهترین انتخاب در این زمینه است و به راحتی می توانید آن را در برگه اکسل خود باز کنید. اما ابتدا باید ماژول های Python CSV و ماژول های تاریخ را وارد کنید تا به درستی داده های خود را ضبط کنید. کد زیر را می توانید در بخش واردات وارد کنید:

واردات csv

از واردات datetime تا datetime

تکنیک های پیشرفته خراش دادن

BeautifulSoup یکی از ساده ترین و جامع ترین ابزار برای ضبط وب است. با این حال ، اگر شما نیاز به برداشتن حجم زیادی از داده ها دارید ، گزینه های دیگری را در نظر بگیرید:

  • 1. Scrapy یک چارچوب ضایعات پیتون قدرتمند و شگفت انگیز است.
  • 2. همچنین می توانید کد را با یک API عمومی ادغام کنید. بهره وری از داده های شما مهم خواهد بود. به عنوان مثال ، می توانید Facebook Graph API را امتحان کنید ، که به پنهان کردن داده کمک می کند و آن را در صفحات Facebook نشان نمی دهد.
  • 3. علاوه بر این ، شما می توانید از برنامه های باطن مانند MySQL استفاده کرده و داده ها را در مقدار زیادی با دقت عالی ذخیره کنید.
  • 4. DRY مخفف "خودتان را تکرار نکنید" است و می توانید با استفاده از این تکنیک سعی کنید کارهای منظم را به صورت خودکار انجام دهید.

mass gmail