Jsoup - استخراج وتحليل كود HTML في Java

<فئة div = "MsoNormal" النمط = "الهامش السفلي: 0.0001pt;" >جسوب هو بائع الكتب de جافا من يعالج الكود HTML. إنه واجهة برمجة التطبيقات< / سبان> مناسب جدا لاستخراج البيانات ومعالجتها باستخدام أفضل طرق DOM, CSS et jquery.

jsoup ينفذ خصائص HTML5 ويوزع كود HTML في شجرة (DOM) كما تفعل المتصفحات الحديثة. JSOUP هو مشروع مفتوح المصدر يوزع تحت مظلة MIT. يمكنك العثور على شفرة المصدر في GitHub.
< / o: p>< / div>
الميزات: < / div>- تحليل كود HTML من عنوان URL أو ملف أو string.
- البحث عن البيانات واستخراجها باستخدام شجرة DOM و CSS.
- معالجة العناصر والنص HTML.
- منع هجمات XSS عن طريق مسح اشتراك المستخدم.
- قم بإنشاء كود HTML مرتب.
< / ul>
JSoup ليتم تكييفه مع إصدارات مختلفة من HTML ، فهو ينشئ شجرة تم تحليلها.< / o: p>< / div>
انقر إلى< نمط الامتداد = "اللون: أزرق ؛" > Download jsoup.

< / div>
مثال: < / o: p>

< / div>
استرجع صفحة ويكيبيديا ، وقم بتحويلها وتحليلها ك DOM ، وحدد من قسم الأخبار قائمة بالعناصر.
مستند المستند = Jsoup.connect("http://fr.wikipedia.org").get(); نمط < / div>
1 - تحليل مستند< / h3>
هذا الرمز مخصص لتحليل a document HTML:

< / div>
String html = " < رئيس> < العنوان> اللقب الأول " < فرع /> + "< الجسم> < مثال على التعليمات البرمجية للمستند ";
Document doc = Jsoup.parse(html); < / o: p>< / div>

< / div>
سيبذل المحلل اللغوي قصارى جهده لإنشاء كود HTML واضح من الكود الذي قدمته ، فهو يتعامل مع:

- العلامات غير المغلقة على سبيل المثال: < بلابلا تتحول إلى < بلابلا 
- العلامات الضمنية على سبيل المثال: 
نبسب؛ نبسب؛ نبسب؛ < ت.د> نبسب؛ جدول محاط بنمط < الجدول> < تر> < ت.د> 
- يحترم هيكل الكود الذي تم إنشاؤه معايير لغة HTML (الرأس والجسم والعناصر التي تشكل الصفحة).
< / div>
2- تحليل مستند من سلسلة < / h3>
لدينا HTML في سلسلة Java ونريد تقسيمها للحصول على محتواها ، أو للتحقق مما إذا كانت مكتوبة بشكل جيد ، أو لتعديلها. يمكن قراءة الإدخال من ملف أو رابط من web.
يجب عليك استخدام الطريقة المحددة مسبقا Jsoup.parse(سلسلة html) أو Jsoup.parse(سلسلة html, سلسلة أوري) إذا كانت الصفحة واردة من الويب. انظر class Jsoup.< / a>< / o: p>< / div>

< / div>
String html = " < رئيس> < العنوان> عنوان " < فرع /> + "< الجسم> html en doc ";
Document doc = Jsoup.parse(html); < / o: p>< / div>

< / div>
الطريقة Jsoup.parse(سلسلة html, سلسلة أوري) يوزع إدخال التعليمات البرمجية HTML في جديد مستند. تستخدم الوسيطة URI لتحويل relative URLs إلى عناوين URL مطلقة ويجب أن تكون تمت تهيئته باستخدام عنوان URL الذي تم إنشاء مستنده استرداد. إذا لم يكن ذلك ممكنا ، يمكنك استخدم Jsoup.parse (سلسلة html) .< / o: p>< / div>يجب ألا تكون السلسلة التي تم تمريرها كمعلمة فارغة وسيتكون مستند الإخراج من أقل من الرأس et de body. إذا كنت obturerez استثناء حيث ستجد أن استخراج الشجرة لم يتم. بشكل صحيح ، اقرأ documentation لمزيد من المعلومات.
بمجرد حصولك على المستند ، ستتمكن من: استعادة البيانات مع أساليب الفئة وثيقة والدرجات العليا < نمط الامتداد = "اللون: أزرق ؛" >Node et Element.< / o: p>< / div>
3- تحليل الجسم< / h3 >
لدينا قطعة من البدلة التي نريد تحليلها. يمكن أن تحتوي التعليمة البرمجية على عناصر ليست كود HTML على سبيل المثال ، مثل comments.< / o: p>< / div>
الحل هو استخدام Jsoup.parseBodyFragment(سلسلة html).

< / div>
سلسلة < / سبان >< / ب >< سبان النمط = "عائلة الخط: 'مصدر بلا برو' ، بلا سيريف ؛" > html="< شعبة> < الفقرة "؛
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body(); < / o: p>< / div>

< / div>

الأسلوب parseBodyFragment بإنشاء مستند فارغ وإدراج HTML الذي تم تحليله في النص الأساسي. إذا كنت تستخدم < نمط الامتداد = "اللون: # 990000 ؛" >Jsoup.parse (سلسلة html) ، سيكون لديك نفسه النتيجة ، ولكن التعامل مع الإخراج ك يضمن جزء الجسم أن جميع العناصر المقدمة قد تم تحليلها.< / o: p>< / div>
طريقة Document.body() يسترجع العناصر الجزء السفلي من الجسم (الطفل) ، وهو ما يعادل < نمط الامتداد = "اللون: # 990000 ؛" >doc.getElementsByTag ("body").
من المستحسن أن تظل حذرا عندما أفاق البيانات من المواقع التي تحتوي على نصوص برمجية خبيث. عرض وثائق < نمط الامتداد = "اللون: أزرق ؛" >القائمة البيضاء< / a> ومع النظام نظيف (سلسلة html ، القائمة البيضاء للقائمة البيضاء) .< / div>
4- قم بتحميل مستند من عنوان URL
للبحث عن مستند HTML وتحليله من الويب والعثور على البيانات ، يجب عليك استخدام Jsoup.connect(عنوان url للسلسلة).

< / div>
مستند doc = Jsoup.الاتصال< / الامتداد > ( "http://siteweb.com/" ).get(); نمط 
String title = doc.title(); < / pre>
 < نمط الامتداد = "اللون: # 990000 ؛" الطريقة > الاتصال (عنوان url للسلسلة) ينشئ ملف جديد connexion و get() يبحث عن ملف HTML ويوزعه. إذا كان a الخطأ الذي ظهر أثناء البحث ، سوف استثناء الوجود تم تشغيله.< / o: p>< / div>
الواجهة connexion < نمط الامتداد = "ارتفاع الخط: 115٪ ؛" تم تصميم > في التسلسل للحصول على إجابة محددة :

< / div>
Document doc = Jsoup. الاتصال ("http://siteweb.com")
فئة .data ( "query" , "Java" ) 
فئة .userAgent ( "Mozilla" ) 
فئة .cookie ( "auth" , "token" ) 
فئة .timeout ( 3000) 
فئة .post () ؛ < / pre>
تدعم هذه الطريقة عناوين URL لبروتوكولي http و https فقط. إذا كنت بحاجة إلى تحميل ملف ، فمن الأفضل استخدام طريقة تحليل (ملف في ، اسم مجموعة أحرف السلسلة) .< / o: p>
< / div>
5- قم بتحميل مستند من ملف< / h3 >
لدينا ملف يحتوي على HTML ونريد تحميله ، ثم تحليله واستخراج البيانات لمعالجته. يجب عليك استخدام الطريقة Jsoup.parse (ملف في ، ترميز السلسلة ، سلسلة Uri).< / o: p>< / div>

< / div>
ملف إدخال = جديد< / سبان>< / سبان>< سبان فئة = "PLN" >< نمط الامتداد = "مرفق الخلفية: أولي ؛ مقطع الخلفية: أولي ؛ صورة الخلفية: أولية ؛ أصل الخلفية: أولي ؛ موقف الخلفية: الأولي ؛ تكرار الخلفية: أولي ؛ حجم الخلفية: أولي ؛ عائلة الخط: "مصدر بلا برو" ، بلا رقيق ؛" > ملف ( "/ temp/siteinput.html" ); < / pre>
Document doc = Jsoup.parse (< نمط الامتداد = "ارتفاع الخط: 13.85pt;" >siteinput, "UTF-8", "http://siteweb.com/" ); < / pre>
يتم استخدام معلمة Uri لحل عناوين URL النسبية في المستند قبل عنصر < هريف> يمكن العثور عليها. يمكنك تمرير سلسلة فارغة String.
هناك طريقة أخرى مماثلة لتحليل (ملف في ، ترميز سلسلة). تستخدم طريقة parse() مسار الملف كعنوان Uri. هذه الطريقة فعالة عند العمل على خادم محلي.

© codeurjava.com 2015 - 2025 | Privacy policy

Advertisement

AdBlock Detected

Please disable your ad blocker and refresh the window to use this website.