Back to Question Center
0

ಸೆಮಾಲ್ಟ್ - ವೆಬ್ ಪುಟಗಳನ್ನು ಸ್ಕ್ರ್ಯಾಪ್ ಮಾಡಲು ಹೇಗೆ?

1 answers:
ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಒಂದು ಪಾರ್ಸ್ ಮರವನ್ನು ರಚಿಸುವ ಮೂಲಕ ವೆಬ್ ಪುಟಗಳನ್ನು ಮಟ್ಟ ಮಾಡು ಮಾಡಲು ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುವ ಪೈಥಾನ್ ಗ್ರಂಥಾಲಯವಾಗಿದೆ.

XML ಮತ್ತು HTML ಡಾಕ್ಯುಮೆಂಟ್ಗಳಿಂದ. ವೆಬ್ ಸ್ಕ್ರ್ಯಾಪಿಂಗ್, ವೆಬ್ಸೈಟ್ಗಳು ಮತ್ತು ಪುಟಗಳಿಂದ ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯುವ ತಂತ್ರವನ್ನು ವ್ಯಾಪಕವಾಗಿ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ನಿರ್ವಹಣೆ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ. ಹೆಚ್ಚಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಡೇಟಾ ವಿಜ್ಞಾನದಲ್ಲಿ ಪೈಥಾನ್ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ ಪೂರ್ವಾಪೇಕ್ಷಿತವಾಗಿದೆ.

ಪೈಥಾನ್ 3 ಸ್ಕ್ರ್ಯಾಪಿಂಗ್ ಟೂಲ್ಗಳು ಮತ್ತು ಮಾಡ್ಯೂಲ್ಗಳನ್ನು ನಿಮ್ಮ ಡಾಟಾ ಮ್ಯಾನೇಜ್ಮೆಂಟ್ ಪ್ರಾಜೆಕ್ಟ್ಗೆ ಅನ್ವಯಿಸಬಹುದು. ಪ್ರಸ್ತುತ ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ 4 ರಂತೆ ಚಾಲನೆಯಲ್ಲಿರುವ ಈ ಮಾಡ್ಯೂಲ್ ಪೈಥಾನ್ 3 ಮತ್ತು ಪೈಥಾನ್ 2 ರೊಂದಿಗೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ - new aspire tank burnt taste. 7. ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ 4 ಘಟಕವು ಮುಚ್ಚಿದ ಟ್ಯಾಗ್ ಸೂಪ್ಗಾಗಿ ಪಾರ್ಸ್ ಮರವನ್ನು ರಚಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ. ಈ ಟ್ಯುಟೋರಿಯಲ್ ನಲ್ಲಿ, ಪುಟವನ್ನು ಮಟ್ಟ ಮಾಡು ಮತ್ತು ಸ್ಕ್ರಾಪ್ ಮಾಡಿದ ಡೇಟಾವನ್ನು CSV ಫೈಲ್ಗೆ ಹೇಗೆ ಬರೆಯಬೇಕು ಎಂಬುದನ್ನು ನೀವು ಕಲಿಯುತ್ತೀರಿ.

ಪ್ರಾರಂಭಿಸುವುದು

ಪ್ರಾರಂಭಿಸಲು, ಸರ್ವರ್ ಅಥವಾ ಸ್ಥಳೀಯ-ಆಧಾರಿತ ಪೈಥಾನ್ ಕೋಡಿಂಗ್ ಪರಿಸರವನ್ನು ನಿಮ್ಮ PC ಯಲ್ಲಿ ಸ್ಥಾಪಿಸಿ. ನಿಮ್ಮ ಯಂತ್ರದಲ್ಲಿ ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಮತ್ತು ವಿನಂತಿಗಳ ಮಾಡ್ಯೂಲ್ ಅನ್ನು ಸಹ ನೀವು ಸ್ಥಾಪಿಸಬೇಕು. ಎರಡೂ ಮಾಡ್ಯೂಲ್ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಜ್ಞಾನವೂ ಅವಶ್ಯಕ ಪೂರ್ವಾಪೇಕ್ಷಿತವಾಗಿದೆ. ಎಚ್ಟಿಎಮ್ಎಲ್ ಟ್ಯಾಗಿಂಗ್ ಮತ್ತು ರಚನೆಯೊಂದಿಗೆ ತಿಳಿದಿರುವಿಕೆಯು ಸಹ ಅಧಿಕ ಲಾಭ.

ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಅಂಡರ್ಸ್ಟ್ಯಾಂಡಿಂಗ್

ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನಿಮಗೆ ಸಹಾಯ ಮಾಡಲು ನ್ಯಾಷನಲ್ ಗ್ಯಾಲರಿ ಆಫ್ ಆರ್ಟ್ನಿಂದ ನೈಜ ಡೇಟಾವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.ನ್ಯಾಷನಲ್ ಗ್ಯಾಲರಿ ಆಫ್ ಆರ್ಟ್ ಸುಮಾರು 13,000 ಕಲಾವಿದರಿಂದ 120,000 ತುಣುಕುಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಆರ್ಟ್ ವಾಷಿಂಗ್ಟನ್ ಡಿ ನಲ್ಲಿದೆ. ಸಿ, ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್.

ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ನೊಂದಿಗಿನ ವೆಬ್ ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯುವುದು ಸಂಕೀರ್ಣವಲ್ಲ. ಉದಾಹರಣೆಗೆ, ನೀವು ಪತ್ರ ಝಡ್ನಲ್ಲಿ ಕೇಂದ್ರೀಕರಿಸಿದರೆ, ಗುರುತು ಮಾಡಿ ಮತ್ತು ಪಟ್ಟಿಯಲ್ಲಿ ಮೊದಲ ಹೆಸರನ್ನು ಗಮನಿಸಿ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಮೊದಲ ಹೆಸರು ಜಬಗ್ಲಿಯಾ, ನಿಕೋಲಾ. ಸ್ಥಿರತೆಗಾಗಿ, ಪುಟಗಳ ಸಂಖ್ಯೆಯನ್ನು ಮತ್ತು ಆ ಪುಟದಲ್ಲಿನ ಕೊನೆಯ ಕಲಾವಿದರ ಹೆಸರನ್ನು ಸೂಚಿಸಿ.

ವಿನಂತಿಗಳು ಮತ್ತು ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಲೈಬ್ರರಿಯನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುವುದು ಹೇಗೆ

ಗ್ರಂಥಾಲಯಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳಲು, ನಿಮ್ಮ ಪೈಥಾನ್ 3 ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಪರಿಸರವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ. ನಿಮ್ಮ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಪರಿಸರದೊಂದಿಗೆ ಒಂದೇ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿರುವಿರಾ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ. ಪ್ರಾರಂಭಿಸಲು ಈ ಕೆಳಗಿನ ಆಜ್ಞೆಯನ್ನು ಚಲಾಯಿಸಿ. my_env / bin / activate.

ಹೊಸ ಫೈಲ್ ಅನ್ನು ರಚಿಸಿ ಮತ್ತು ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಮತ್ತು ವಿನಂತಿಗಳ ಗ್ರಂಥಾಲಯಗಳನ್ನು ಆಮದು ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿ. ವಿನಂತಿಗಳು ಲೈಬ್ರರಿಯು ಓದುವಂತಹ ಸ್ವರೂಪಗಳಲ್ಲಿ ನಿಮ್ಮ ಪೈಥಾನ್ ಕಾರ್ಯಕ್ರಮಗಳಲ್ಲಿ HTTP ಅನ್ನು ಬಳಸಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಮತ್ತೊಂದೆಡೆ, ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ತ್ವರಿತವಾಗಿ ಪುಟಗಳನ್ನು ಹಿಗ್ಗಿಸಲು ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಆಮದು ಮಾಡಲು bs4 ಬಳಸಿ.

ವೆಬ್ ಪುಟವನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಪಾರ್ಸ್ ಮಾಡುವುದು ಹೇಗೆ

ವಿನಂತಿಗಳನ್ನು ಬಳಸುವುದು ನಿಮ್ಮ ಮೊದಲ ಪುಟದ URL ಅನ್ನು ಸಂಗ್ರಹಿಸುವುದು. ಮೊದಲ ಪುಟದ URL ವೇರಿಯಬಲ್ ಪುಟಕ್ಕೆ ನಿಯೋಜಿಸಲಾಗುವುದು. ವಿನಂತಿಗಳಿಂದ ಒಂದು ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ವಸ್ತುವನ್ನು ನಿರ್ಮಿಸಿ ಮತ್ತು ಪೈಥಾನ್ ಪಾರ್ಸರ್ನಿಂದ ವಸ್ತುವನ್ನು ಪಾರ್ಸ್ ಮಾಡಿ.

ಈ ಟ್ಯುಟೋರಿಯಲ್ ನಲ್ಲಿ, ಕೊಂಡಿಗಳು ಮತ್ತು ಕಲಾವಿದರ ಹೆಸರುಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಗುರಿಯಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ನೀವು ಕಲಾವಿದರ ದಿನಾಂಕ ಮತ್ತು ರಾಷ್ಟ್ರೀಯತೆಯನ್ನು ಸಂಗ್ರಹಿಸಬಹುದು. ವಿಂಡೋಸ್ ಬಳಕೆದಾರರಿಗೆ, ಕಲಾವಿದನ ಮೊದಲ ಹೆಸರನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಜಬಗ್ಲಿಯಾ, ನಿಕೋಲಾವನ್ನು ಬಳಸಿ. ಮ್ಯಾಕ್ ಓಎಸ್ ಬಳಕೆದಾರರಿಗಾಗಿ, "CTRL" ಟ್ಯಾಪ್ ಮಾಡಿ ಮತ್ತು ಹೆಸರನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ. ವೆಬ್ ಪರದೆಯ ಪಾಪ್ಅಪ್ಗಳನ್ನು ವೆಬ್ ಡೆವಲಪರ್ಗಳ ಉಪಕರಣಗಳನ್ನು ಪ್ರವೇಶಿಸಲು "ಎಲಿಮೆಂಟ್ ಪರೀಕ್ಷಿಸಿ" ಮೆನು ಕ್ಲಿಕ್ ಮಾಡಿ. ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಅನ್ನು ಮರದ ಬೇಗನೆ ಪಾರ್ಸ್ ಮಾಡಲು ಕಲಾವಿದನ ಹೆಸರುಗಳನ್ನು ಮುದ್ರಿಸು.

ಕೆಳಗಿನ ಲಿಂಕ್ಗಳನ್ನು ತೆಗೆದುಹಾಕಲಾಗುತ್ತಿದೆ

ನಿಮ್ಮ ವೆಬ್ ಪುಟದಲ್ಲಿ ಕೆಳಗಿನ ಲಿಂಕ್ಗಳನ್ನು ತೆಗೆದುಹಾಕಲು, ಅಂಶವನ್ನು ಬಲ ಕ್ಲಿಕ್ ಮಾಡುವ ಮೂಲಕ DOM ಪರೀಕ್ಷಿಸಿ. ಕೊಂಡಿಗಳು HTML ಟೇಬಲ್ ಅಡಿಯಲ್ಲಿವೆ ಎಂದು ನೀವು ಗುರುತಿಸುವಿರಿ. ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಬಳಸಿ, ಪಾರ್ಸ್ ಮರದಿಂದ ಟ್ಯಾಗ್ಗಳನ್ನು ತೆಗೆದುಹಾಕಲು "ಕೊಳೆಯುವ ವಿಧಾನ" ಅನ್ನು ಬಳಸಿ.

ಒಂದು ಟ್ಯಾಗ್ನಿಂದ ವಿಷಯವನ್ನು ಎಳೆಯುವುದು ಹೇಗೆ

ನೀವು ಸಂಪೂರ್ಣ ಲಿಂಕ್ ಟ್ಯಾಗ್ ಅನ್ನು ಮುದ್ರಿಸಬೇಕಾಗಿಲ್ಲ, ಟ್ಯಾಗ್ನಿಂದ ವಸ್ತುಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಬಳಸಿ. ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ 4 ಅನ್ನು ಬಳಸಿಕೊಂಡು ಕಲಾವಿದರೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದ URL ಗಳನ್ನು ನೀವು ಸೆರೆಹಿಡಿಯಬಹುದು.

ಒಂದು CSV ಫೈಲ್

ಗೆ ಸ್ಕ್ರ್ಯಾಪ್ ಮಾಡಿದ ಡೇಟಾವನ್ನು ಸೆರೆಹಿಡಿಯುವುದು CSV ಫೈಲ್ ಸರಳವಾದ ಪಠ್ಯದಲ್ಲಿ ರಚನಾತ್ಮಕ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ, ಇದು ಹೆಚ್ಚಾಗಿ ಡಾಟಾಶೀಟ್ಗಳಿಗಾಗಿ ಬಳಸಲಾಗುವ ಸ್ವರೂಪವಾಗಿದೆ. ಪೈಥಾನ್ನಲ್ಲಿ ಸರಳ ಪಠ್ಯ ಫೈಲ್ಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಜ್ಞಾನವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗಿದೆ.

ವೆಬ್ ಡೇಟಾ ಹೊರತೆಗೆಯುವಿಕೆ ಪುಟಗಳನ್ನು ಮಟ್ಟ ಮಾಡು ಮತ್ತು ಮಾಹಿತಿಯನ್ನು ಪಡೆದುಕೊಳ್ಳಲು ಬಳಸಲಾಗುತ್ತದೆ. ನೀವು ಹೊರತೆಗೆಯುವ ಮಾಹಿತಿಯ ವೆಬ್ಸೈಟ್ಗಳಿಂದ ಪರಿಗಣಿಸಿರಿ. ಕೆಲವು ಕ್ರಿಯಾತ್ಮಕ ವೆಬ್ಸೈಟ್ಗಳು ತಮ್ಮ ಸೈಟ್ಗಳಲ್ಲಿ ವೆಬ್ ಡೇಟಾ ಹೊರತೆಗೆಯುವುದನ್ನು ನಿರ್ಬಂಧಿಸುತ್ತವೆ. ಬ್ಯೂಟಿಫುಲ್ ಸೂಪ್ ಮತ್ತು ಪೈಥಾನ್ 3 ನೊಂದಿಗೆ ಪುಟವನ್ನು ಗಲ್ಲಿಗೇರಿಸುವುದು ಸರಳವಾಗಿದೆ.

December 22, 2017